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5 上 言 


本 系列 教程 是 ShowMeAI 组 织 的 “图 解数 据 分 析 ， 
系列 教程 的 入 口 。 数 据 分 析 是 一 项 应 用 非 音 广 沁 的 


技能 ， 这 套数 据 分 析 教 程 不 同 于 其 他 文字 版 教程 ， 
我 们 以 最 直 挂 的 “图 示 , 对 每 个 内 容 和 关键 点 【可 
视 化 ， ， 配 以 最 精准 精简 的 代码 ， 让 大 家 尽快 入 

| 水 


教程 内 容 : 数据 分 析 思 维 、 数 据 分 析 的 数学 基础 、 
效 据 分 析 流 程 (业务 认 知 与 数据 初探 、 数 据 清 洗 与 
预 处 理 、 业 务 分 析 与 数据 挖掘 ) 、 数 据 分 析 工 具 、 
Numpy、Pandas、 数 据 可 视 化 (Pandas、 
Seaborn ) 。 


教程 地 址 
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1. 效 据 分 析 介 引 


2. 数 据 分 析 思 维 
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3. 效 据 分 析 的 数学 基础 
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6. 业 务 分 析 与 效 据 挖掘 
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9.Numpy 与 1 维 效 组 操作 
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16. 效 据 可 钢化 原则 与 方法 


17. 基 于 Pandas 的 数据 可 视 化 
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资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 中 
下 载 ， 可 本 地 python 环 境 运 行 ， 能 科学 上 网 的 宝宝 
也 可 以 直接 借助 google colab 一 键 运行 与 交互 操作 
学 习 哦 ! 


本 系列 教程 水 及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 
。 Pandas 速 查 表 


。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
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一 、 效 据 分 析 的 定义 


数据 分 析 


Data Analysis 
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互联 网 时 代 来 临 ， 随 着 用 户 需 求 和 用 户 行为 的 多 样 
化 ， 数 据 量 有 了 指数 级 别 的 大 幅 增 长 。 但 是 ， 原 始 
效 据 (信息 ) 只 是 一 串 数 字 或 字符 。 对 这 些 原 始 数 
据 进行 检查 、 清 理 、 转 换 以 及 建 模 等 操作 ， 才 可 以 
洞察 数据 背后 的 规律 ， 得 出 准确 的 结论 或 做 出 正确 
的 决策 一 一 这 也 是 数据 分 析 的 一 个 标准 过 程 。 


二 、 效 据 分 析 的 应 用 


数据 分 析 的 数学 基础 在 20 世 纪 早 期 就 已 确立 ， 但 计 
算 机 出 现 后 ， 规 范 和 自动 化 的 分 析 才 具备 可 行 性 。 
现在 ， 数 据 分 析 已 经 广 沈 地 应 用 到 了 各 个 领域 。 
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以 互联 网 为 例 ， 数 据 分 析 使 用 适当 的 方法 对 收集 来 
的 大 量 数据 进行 分 析 ， 帮 助人 们 做 出 判断 ， 以 便 采 
取 适 当 的 行动 : 


。 电 商 平 台 分 析 用 户 的 消费 行为 ， 制 定 促销 活动 
的 方案 、 时 间 和 力度 ， 计 算 用 户 活跃 度 ， 分 析 
产品 的 回 购 力度 ， 


。 短 人 钢 频 平台 通过 用 户 的 点 击 和 观看 行为 数据 针 
对 性 的 给 用 户 推送 喜欢 的 视频 ; 


。 上 广告 主 分析 广 告 点 击 率 ， 决 定投 放 平 台 、 制 定 
告 定 向 人 群 方案 、 决 定投 放 时 间 ; 


。 保险 公司 从 大 量 赔付 申请 数据 中 判断 哪些 为 驴 
保 的 可 能 ， 支 付 宝 通过 从 大 量 的 用 户 消费 记录 
和 行为 自动 调整 伦 员 的 额度 ; 


三 、 效 据 分析 的 价值 
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3.1 从 个 人 发 展 角度 而 言 


(1) 学 习 数据 分 析 可 以 增加 个 人 的 就 业 机 会 。 


打开 各 种 招聘 网 站 ， 越 来 越 多 的 岗位 开始 要 求 " 具 
备 一 定 的 数据 分 析 能 力 。 。 同 样 参与 面试 的 两 个 优 
秀 候选 人 ， 有 具备 数据 分 析 能 力 的 那个 有 更 大 的 机 会 


拿 到 Offer。 


(2 ) 学 习 数 据 分 析 可 以 得 到 更 多 的 晋升 机 会 。 


例如 销售 人 员 ， 可 以 通过 分 析 各 个 渠道 的 转化 率 ， 
发 现在 话 术 、 内 容 、 咨 询 时 间 不 同 的 方面 的 转化 效 
果 ， 从 而 优化 个 人 的 工作 流程 与 相关 的 内 容 。 有 数 
据 支 持 的 业务 分 析 ， 更 容易 做 出 合理 的 决策 ， 页 献 
优秀 的 绩效 。 


(3 ) 学 习 数据 分 析 拓宽 融 业 方向 。 

大 中 型 企业 〈 盛 其 是 头 部 企业 ) ， 都 设置 有 “数据 
分 析 。 岗位 ， 例 如 数据 分 析 师 、 数 据 科学 家 等 等 。 
目前 各 种 数据 分 析 岗 位 招聘 需求 都 相对 较 大 。 


(4 ) 学 习 数 据 分 析 可 以 参与 公司 的 决策 核心 。 


效 据 分 析 对 于 企业 最 大 的 价值 束 是 可 以 为 企业 的 发 
展 提 供 更 加 明确 的 方向 ， 能 为 企业 的 产业 结构 优化 
碱 少 更 多 的 成 本 支出 ， 作 为 数据 分 析 人 员 必 然 需要 
参与 到 决策 之 中 ， 其 重要 程度 可 见 一 斑 。 


3.2 从 企业 发 展 角度 而 言 

(1 ) 掌握 数据 分 析 的 人 才能 为 企业 节约 更 多 的 成 
本 。 

通过 数据 分 析 能 够 发 现 人 员 管 理 、 业 务 流 程 、 产 业 
结构 等 过 程 中 的 漏洞 并 加 以 优化 ， 降 低 其 中 的 损耗 
成 本 。 

(2 ) 掌握 数据 分 析 的 人 才 为 企业 的 发 展 帝 来 更 多 的 
可 能 。 


通过 市 场 数 据 分 析 和 用 户 数据 分 析 ， 可 以 为 目标 用 


户 提供 更 精准 的 产品 和 夫 ， 从 而 提高 企业 营 收 规 
模 。 


四 、 效 据 化 的 ? 分 析 思 维 


4.1 波 特 五 力 模型 


通过 分 析 供 应 商 和 购买 者 的 讨价还价 能 力 ， 潜 在 进 
CR 蔡 代 品 的 威胁 ， 以 及 来 自 目 前 在 同一 

行业 的 公司 间 的 竞争 ， 具 体 的 分 析 一 个 行业 的 基本 
ea 不 过 ,五 力 模型 只 考虑 了 同行 业 之 间 的 
竞争 关系 ， 没 有 考虑 合作 共 赢 的 可 能 。 


购买 者 集中 度 、 购买 者 信息 


nso 转换 成 本 、 产 品 可 选择 性 
数据 介 析 
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威胁 竞争 者 威胁 议价 能 力 


集中 度 、 均 衡 度 进入 壁垒 、 规 模 经 济 
增长 网 势 、 固 定 成 本 产品 差异 、 品 牌 优势 
产品 差异 、 品 牌 优势 转换 成 本 、 资 本 要 求 
转换 成 本 、 退 出 壁 驮 销售 渠道 、 政府 约束 
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4.2 PEST 分 析 法 


PEST 分 析 党 用 于 分 析 安 观 环境 ， 人 
一 系列 影响 企业 战略 规划 和 经 营 管理 的 外 部 要 素 ， 
是 一 切 规划 工作 的 前 提 。PEST 模 型 为 安 观 环 太 分 


析 提 供 了 基本 框 以 。 
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人 口 规模、 年 龄 结构 教育 状况 竺 | 
生活 方式 ,网 交 习 榴 旨 沪 环 入 ShowMeAl 研究 中 心 


P 
庄 
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4.3 SWOT 分 析 法 


SWOT 是 指 企业 内 部 的 的 优势 和 劣势 、 外 部 竞争 市 
场 上 的 机 会 和 威胁 。SWOT 分 析 法 通 对 企业 进行 深 
入 全 面 的 分 析 ， 以 明确 竞争 优势 的 定位 ， 将 公司 的 
战略 与 公司 内 部 资源 、 外 部 环境 有 机 结合 ， 从 而 制 
定 企业 战略 。 


纪 
ef 加 
数据 分 析 e 
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4.4 行业 生命 周期 理论 


行业 生命 周期 (Industry Life Cycle) ， 指 行业 从 出 现 


到 完全 退出 社会 经 济 活动 所 经 历 的 时 间 。 行 业 的 生 
命 发 展 周期 主要 ee : 初创 期 ， 成 长 
期 ， 成 熟 期 ， 衰 退 期 。 类 似 的 分 析 思 路 也 常用 于 用 
户 生 命 周期 的 4 5 


2 要 ， 商 业 战 四 的 奖 施 并 不 汪 站 
数据 分 析 区 
行业 生命 周期 司 成 长 期 : 产品 已 被 接受 ， 业务 开始 柏 展 ， 多 信和 加 和 日 


加 速 增长 ， 但 竞争 者 也 开始 加 入 | 


确 
成 熟 期 ; 行业 趋势 与 总 体 经 济 趋势 相同 ， 竞 争 者 们 在 稳 
定额 行业 中 互相 争夺 市 场 价 额 


衰退 期 : 新 技术 的 出 现 和 更 新 ， 或 者 消费 信 好 的 改变 ， 
使 产品 的 市 场 需求 乏 潍 琅 直 微 信 ShowMeAl 研究 中 心 
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4.5 人 货场 理论 


人 货场 ， | 分 析 ， 不 管 是 最 早 一 
代 的 商 超 、 百 货 还 是 现在 的 电 商 零售 、 直 播 融 货 。 
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4.6 金子 培 原 理 


金字 塔 原理 ( Pyramid Principle ) ， 是 说 任何 事情 


都 可 以 归纳 出 一 个 中 心 论点 ， 而 此 中 心 论点 可 由 三 
至 七 个 论据 支持 ， 这 些 一 级 论据 本 身 也 可 以 是 个 论 
点 ， 被 二 级 的 三 至 七 个 论据 支持 ， 如 此 延伸 ， 状 如 


结论 先行 ， 以 上 统 下 逐 辑 
归 类 分 组 ， 逮 辑 递 进 
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SS 
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4.7 SMART 原则 


人 们 在 制定 工作 目标 或 任务 目标 时 ， 无 论 是 制定 团 
队 的 工作 目标 还 是 员工 的 绩效 目标 ， 考 虑 一 下 目标 
与 计划 是 不 是 符 SMART 原 则 。 只 有 有 具备 SMART 化 
的 计划 才 具 有 良好 的 可 实施 性 ， 也 才能 指导 保证 计 
划 得 以 实现 。 


数据 分 析 Specific 
SMART 原则 
S 具体 的 
M 可 以 衔 量 的 
扩 可 以 达到 的 
工具 有 明确 的 截止 日 期 


R 与 其 他 目标 有 一 定 相关 性 


个 http:Wwww.showmeaitechy 


4.8 5W2H 分 析 法 


5W2H 分 析 法 ， 又 称 七 问 分 析 法 ， 是 以 5 个 W 开 头 的 
英语 单词 和 两 个 以 H 开 头 的 英语 单词 进行 设 问 ， 发 
现 解决 问题 的 线索 ， 寻 找 新 思路 ， 进 行 设 计 构 思 ， 
从 而 作出 新 的 发 明 项 目 或 者 作出 新 的 决策 的 方法 。 


芭 数据 介 析 
5W2H 分 析 法 


如 何 做 ?用 什么 方法 (流程 ) 做 ? 


| 有 1 


How much 
代价 是 什么 ， 成 本 如 何 ?要 做 到 什么 程度 ? 
上 全 记 吉 | 壤 售 -ShowMeAl 研 究 中心 


仿 http:Wwww.showmeaitechy 


4.9 则 累 托 法 则 


源 于 经 典 的 二 八 法 则 ， 在 数据 分 析 中 ， 可 以 理解 为 
20% 的 数据 产生 了 80% 的 效果 ， 需 要 围 丝 这 20% 的 
效 据 进行 挖掘 。 


号 
四 ,if 20% 的 数据 产生 了 80% 人 天 多 旬 多 人 旬 刀 二 贡 
二 八 法 则 。 xoweavet | @BBBB888881 


20% 的 数据 进行 挖掘 。 


区 用 和 途 : 用 来 审 分 产品 和 销售 额 、 划 分 客户 和 客户 交易 额 等 
比如 ， 给 企业 贡献 80%6 利 润 的 客户 是 哪些 ? 占 比 多 少 ? 
假设 有 20%， 那么 在 资源 有 限 的 情况 下 ， 就 知道 要 重点 
维护 这 20! wsfC 


1 禄 喜 | 答 信 ShowMeAl 研究 中 心 


Cn http:Wwww.showmeaitechy 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 官 方 教程 

。 十 分 钟 入 门 Pandas 

。 利用 Python 进行 数据 分 析 . 第 2 版 
。 Wo9schools pandas tutorial 

。 Kaggle 的 pandas 入 门 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 


。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 
。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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图 解 效 据 分 析 | 效 据 分 析 思 维 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123118408 


ShowMeAl ”人 


研 究 中 心 国 几 sa 国 xs 国 so 语 国 十 . 谢 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/135 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


有 人 把 数据 分 析 的 核心 总 结 为 六 字 ， 即 对 比 、 细 
分 、 溯 源 ， 也 被 数据 分 析 的 三 板 径 ， 支 撑 数 据 分 析 
的 核心 应 用 ， 有 具体 来 说 : 


了 
ae 


了 未 


数据 r 细 分 人 数据 5 涛 源 1 


对 比 : 成 对 地 比较 。 


。 模 向 对 比 : 邱 “他 人 = 比较 ， 比 如 ， 两 家 公司 
的 离职 率 。 

。 纵 向 对 比 : 按照 时 间 维度 与 “自己 的 比较 ， 
比如 ， 一 家 公司 去 年 和 今年 的 离职 率 。 


细 分 : 对 数据 增加 维度 、 降 低 粒 度 地 分 析 。 
。 分 维度 : 增加 维度 ， 比 如 ， 离 职 率 按照 部 门 维 
度 来 分 析 。 
。 降低 粒度 : 降低 数据 聚合 的 程度 ， 比如， 离职 
率 不 按 年 份 、 而 按照 月 份 来 统计 。 


溯源 : 在 对 比 、 细 分 锁定 到 具体 维度 和 粒度 之 后 ， 
依然 没有 结论 ， 那 就 需要 查看 原始 数据 ， 洞 察 数 
据 ， 从 数据 中 寻找 灵感 。 


一 、 效 据 “ 对 比 。 


效 据 放 在 那里 是 没有 意义 的 ， 只 有 将 数据 进行 比 
较 ， 才 体现 出 数据 分 析 的 价值 。 对 比 其 实 很 简单 ， 
就 是 把 A 和 和 B 比 较 。 但 是 ， 没 有 可 对 比 性 的 对 比 一 定 


是 雪 流 谍 。 


眶 局 分 析 思 维 sn 数据 对 比 
『 对 比 引 个 一 臻 个 要 革 
数据 人 对 象 一 致 允 此 要 可 比 
人 时 间 属性 一 臻 差异 要 显著 
定义 和 算法 一 致 柑 述 要 全 面 
数据 源 一 至 人 禄 索 | 微 信 ShowMeAl 研究 中 心 ] 


1.1 指标 的 可 对 比 性 


指标 的 可 对 比 性 ， 可 以 从 四 个 一 致 "原则 来 评估 : 
对 象 一致 、 时 间 属 性 一 致 、 定 义 与 算法 一 致 、 数 据 
源 一 致 。 


(1) 比价 对 象 一 致 


比较 的 对 象 一 致 。 对 象 一 致 是 可 比 的 最 基本 原则 ， 
番茄 的 销量 和 猪 的 销量 是 不 可 比 的 ， 这 其 实 就 是 因 
为 比较 的 对 象 不 一 致 。 


(2 ) 时 间 属 性 一 致 


指标 的 时 间 属 性 一 致 。 时 间 属 性 比较 特殊 ， 对 象 所 


在 的 季节 、 月 份 等 时 间 属 性 要 有 可 比 性 。 例 如 ， 一 
家 便利 店 冬季 雪糕 的 销量 ， 和 夏季 没有 可 比 性 ， 
为 对 象 的 时 间 属 性 不 同 ， 但 做 销量 的 同比 是 可 以 
的 。 


(3 ) 定义 和 算法 一 致 


对 分 析 对 象 的 定义 和 计算 方法 一 致 。 举 个 例子 ， 青 
年 的 定义 ， 中 国 国家 统计 局 ( 15-34 周 安 ) 和 中 国共 
青 团 (14-28 周 安 ) 不 同 ， 当 统计 青年 人 数 占 总 人 数 
的 比例 时 ， 二 者 计算 的 指标 数据 ， 肯 定 是 不 同 的 。 


(4 ) 数据 源 一 致 
统计 的 数据 样本 一 致 。 
1.2 数据 对 比 的 “三 要 ” 


在 做 数据 对 比 的 相关 分 析 时 ， 要 记 住 三 个 "要 ”: 对 
比 要 可 比 、 差 异 要 显著 、 描 述 要 全 面 。 


(1 ) 对 比 要 可 比 
对 比分 析 要 有 可 比 性 。 


(2 ) 差异 要 显著 


组 间 差 异 要 显著 ， 组 内 差异 要 细微 。 常 用 的 显著 性 
检验 有 T 检 验 和 方差 分 析 。 


(3 ) 描述 要 全 面 


当 刻 画 一 组 数据 时 ， 不 仅 要 描述 这 组 数据 的 一 般 水 
平 〈 均 值 ) ， 还 要 考虑 到 这 组 数据 的 波动 水 平 。 如 
果 波 动 很 大 ， 一 般 水 平 对 数据 总 体 的 代表 性 就 会 很 
差 。 只 考虑 一 般 水 平 而 不 考虑 波动 和 差异 ， 会 使 数 
据 的 可 信和 度 大 大 缩水 。 


二 、 效 据 “ 细 分 


通过 增加 维度 和 降低 粒度 来 细 分 数据 ， 深 挖 数据 ， 
揭示 数据 中 潜藏 的 规律 。 


增加 维度 从 。。。。 增加 数据 分 析 的 
本 度 ， 能 区 在 更 十 
分 的 级 别 上 分 柱 
站 和 和 歼 抬 ， 增 加 数据 筷 
析 的 深度 。 。” 确 
工 


Co 
国 snras 
数据 5 细 介 J 
人 降低 数据 粒度 ， 可 
以 大 幅度 降低 数 


) 接 过 | 签 石 ShowMeAl 研究 中 心 


2.1 增加 维度 


一 个 维度 是 数据 表 的 一 列 。 通 营 情 况 下 ， 维 度 是 指 
定性 数据 。 例 如 ， 产 品 提供 的 服务 的 类 型 、 用 户 分 


布 的 地 域 等 。 在 分 析 数 据 时 ， 增 加 分 析 的 维度 ， 改 
变 看 待 问 题 的 视角 ， 能 够 在 更 细 分 的 级 别 上 分 析 数 
据 ， 洞 察 到 更 多 的 知识 ， 增 加 数据 分 析 的 深度 。 
例如 ， 新 用 户 的 留存 率 ， 通 过 增加 获 客 来 源 的 维 


度 ， 可 以 监控 各 个 来 源 的 新 用 户 的 留存 率 ， 把 有 限 
的 经 费 使 用 到 真正 可 以 市 来 有 效 转化 的 地 方 。 


2.2 降低 粒度 


粒度 是 数据 的 聚合 程度 。 颗 粒度 最 小 的 数据 ， 是 没 
有 聚合 的 原始 数据 。 


举 个 例子 ， 每 日 效 据 是 原始 数据 ， 其 粒度 是 日 ， 数 
据 的 数量 巨大 ; 而 每 周 的 统计 数据 是 对 日 数据 的 聚 
合 ， 其 粒度 是 周 ， 数 据 的 数量 变 成 原来 的 1/7。 


三 、 效 据 “ 淹 着 。 


溯源 ， 就 是 到 细 世 数据 中 去 ， 和 但 看 原始 数据 ， 反 思 
用 户 的 行为 。 在 做 数据 分 析 时 ， 一 定 要 明白 你 分 析 
得 数据 是 二 手 的 ， 还 是 一 手 的 。 


四 


园 
县 
查看 原始 数据 
反思 用 户 的 行为 


。 一 手数 据 是 最 原始 的 数据 ， 包含 的 内 容 最 丰 
富 ， 但 数据 可 能 不 规范 。 


。 二 手数 据 是 经 过 处 理 的 ， 甚 至 是 分 析 之 后 的 数 
据 ， 这 些 数 据 可 能 是 片面 的 、 阅 割 的 、 面 向 特 
定 主题 的 ， 由 此 得 出 的 分 析 结 果 也 可 能 有 失 公 
乞 5 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。 利用 Python 进行 数据 分 析 . 第 2 版 
。 W3schools pandas tutorial 
。 Kaggle 的 pandas 入 门 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 


。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图解 效 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图 解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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到 解 效 据 分 析 | 效 据 分 析 的 效 
邓 基 础 

原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123130914 


ShowMeAI 硬 核资 料 库 ， 用 知识 加 速 每 一 次 技术 成 长 


4 究 中 心 国 由 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/136 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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一 、 一 维 : 摘 还 性 统计 


速 但 表 


。 http:/showmeai.techy/article-detaiy100 
。 http:/showmeai.techy/article-detaiy101 


描述 性 统计 量 分 为 : 集中 趋势 、 离 散 程度 ( 离 中 趋 


势 ) 和 分 布 形态 。 


1.1 集中 趋势 


效 据 的 集中 趋势 ， 用 于 度量 数据 分 布 的 中 心 位 置 。 
直观 地 说 ， 测 量 一 个 属性 值 的 大 部 分 洛 在 何 处 。 
述 数 据 集 中 趋势 的 统计 量 是 : 平均 值 、 中 位 数 、 众 
效 。 


平均 值 中 位 数 “ 众 数 到 

Mean Median Mode 吧 
众 数 = 中 位 数 = 平均 值 放 仙 二 
Mode Median Mean 上 


描述 性 统计 
Descrptive 
tatjst/cs 


他 http:Wwww.showmeaitechy 


(1 ) 平均 值 CMean ) 

指 一 组 数据 的 算术 平均 数 ， 擅 述 一 组 数据 的 平均 水 
平 ， 是 集中 趋势 中 波动 最 小 、 最 可 靠 的 指标 ， 但 是 
均值 容易 受到 极端 值 ( 极 小 值 或 极 大 值 ) 的 影响 。 


(2 ) 中 位 数 (Median ) 


指 当 一 组 数据 按照 顺序 排列 后 ， 位 于 中 间 位 置 的 
数 ， 不 受 极 端 值 的 影响 ， 对 于 定 序 型 变量 ， 中 位 数 
是 最 适合 的 表征 集中 趋势 的 指标 。 


(3 ) 众 数 (Mode ) 

指 一 组 数据 中 出 现 次 数 最 多 的 观测 值 ， 不 受 极端 值 
的 影响 ， 常 用 于 描述 定性 数据 的 集中 趋势 

1.2 离散 程度 


效 据 的 离散 趋势 ， 用 于 描述 数据 的 分 散 程度 ， 描 ; 
离散 趋势 的 统计 量 是 : 极 差 、 四 分 位 数 极 差 
(CIQR ) 、 标 准 差 、 离散 系数 。 


汪 


-一 一 一 下 一 一 一 upperlimit 


局 
数据 分 析 1.5+TQR 党 
离散 程度 1 = 
数学 基础 箱 线 图 > 人 台 
市 僧 数 Median | IOQR=9: -9 强 
描述 性 统计 下 四 分 位 数 - 5 
Descriptive lower quartile 人 
Statijst1cs 


往 壹 二 向 信 -ShowMeAl 研究 中 心 


(1) 极 差 (Range ) 
又 称 全 距 ， 记 作 R ,是 一 组 数据 中 的 最 大 观测 值 和 


最 小 观测 值 之 差 。 一 般 情况 下 ， 极 差 越 大 ， 离 散 程 
度 越 大 ， 其 值 容易 受到 极端 值 的 影响 。 


(2 ) 四 分 位 数 极 差 (Inter-Quartile Range ， 
IQR ) 


又 称 内 跑 ， 是 上 四 分 位 数 和 下 四 分 位 数 的 差 值 ， 给 
出 数据 的 中 间 一 半 所 履 盖 的 范围 。IQR 是 统计 分 散 
程度 的 一 个 度量 ， 分 散 程度 通过 需要 借助 箱 线 图 
(Box Plot ) 来 观察 。 通 常 把 小 于 Q1-1.5*1QR 
Q1-1.5*IQR Q1-1.5*IQR 或 者 大 于 Q 3 + 1.5*1Q 
R Q3+1.5*IQR Q3+1.5*IQR 的 数据 点 视 作 离 群 

一 | 


YAVO 


加 习 
7na2 一 7niimu 极 差 方差 o= 二 一 了 油 
we 离散 程度 Range Variance 己 
统计 量 5 
7 离 群 点 标准 差 “ 人 本 
3 + 7 Standard Deviation 电 
描述 性 统计 outlieng 一 瑟 < (Qi 一 15*7TQR) 
Descriptive X> (os+15y TO 月 区 
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(3 ) 方差 (Variance ) 


方差 和 标准 差 是 度量 数据 离散 程度 时 ， 最 重要 】 最 
常用 的 指标 。 方 差 ， 是 每 个 数据 值 与 全 体 数据 值 的 
平均 数 之 差 的 平方 值 的 平均 数 ， 常 用 a 2 \sigma 


^{2} 2 表示 。 

0O2=2)(X-H)2N ANsigma^f2} = \fracf\sum 
Meft (X -AMmu right )^A{2}N} oa2=N>(X-H)2 

(4 ) 标准 差 (Standard Deviation ) 


又 称 均 方差 ， 常 用 \sigma 表示 ， 是 方差 的 算术 平方 
根 。 计 算 所 有 数值 相对 均值 的 偏离 量 ， 反 映 数 据 在 
均值 附近 的 波动 程度 ， 比 方差 更 方便 直观 。 


CO=>2(X-HhH)2NNsigma='\sdqrtffracf\sum left ( 
X-AMmu Night )A{2} }{N} } oa=N2 (X-H)2 


(5 ) 离散 系数 (Coefficient of Variation ) 


又 称 变异 系数 ， 为 标准 差 \sigma 与 平均 值 mu 之 
比 ， 用 于 比较 不 同样 本 数据 的 离散 程度 。 离散 系数 
大 ， 说 明 数 据 的 离散 程度 大 ; 离散 系数 小 ， 说 明 数 
据 的 离散 程度 也 小 。 


Cv=OHC 人 VvV=NracfsigmalAmul Cv=Ha 


1.3 分 布 形态 


: 
名 
入 全 介 析 AT 这 
数学 基础 。 偏 度 * 峰 朗 We 1 有 
描述 性 统计 让 全 全 布 左 信 入 
) 福 率 杨 0。 偏 度 尼 数 -0 信 度 系数 <0 。 。 峰 度 系数 -0 \， 正 态 
Staqtjst1cs 


(1) 偏 度 (Skewness ) 
用 来 评估 一 组 数据 分 布 呈现 的 对 称 程度 。 
。 当 偏 度 系数 =0 时 ， 分 布 是 对 称 的 
。 当 偏 度 系数 >0 时 ， 分 布 呈 正 偏 态 ( 右 偏 ) 
。 当 偏 度 系数 <0 时 ， 分 布 呈 负 偏 态 ( 左 偏 ) 
(2 ) 峰 度 (Kurtosis ) 
用 来 评估 一 组 数据 的 分 布 形 状 的 高 低 程 度 的 指标 。 


。 当 峰 度 系数 =0 时 ， 是 正 态 分 布 
。 当 峰 度 系数 >0 时 ， 分 布 形态 陡峭 ， 数 据 分 布 更 


集中 
. 当 峰 度 系数 <0 时 ， 分 布 形态 平缓 ， 数 据 分 布 更 
分 散 


(3 ) 其 他 数据 分 布 图 


分 位 数 是 观察 数据 分 布 的 最 简单 有 效 的 方法 ， 但 分 
位 数 只 能 用 于 观察 单一 属性 的 数据 分 布 。 散 点 图 可 
以 用 来 观察 双 变 量 的 数据 分 布 ， 聚 类 可 以 用 来 观察 
更 多 变量 的 数据 分 布 。 通 过 观察 数据 的 分 布 ， 采 用 
合理 的 指标 ， 使 数据 的 分 析 更 全 面 ， 避 免得 出 像 平 
均 工 资 这 类 偏离 事实 的 的 分 析 结 


二 、 交 叉 维度 


2.1 相关 性 和 线性 回归 
更 多 详细 讲解 图 解 Al 数学 基础 | 概率 与 统计 


(1 ) 相关 系 效 


又 称 简 单 相关 系数 ， 常 用 r 表示 ， 反 应 两 个 变量 之 
加 的 相关 天 系 及 相 天 方 回 。 


| 
高 度 相关 / 极 强 的 线性 相关 攻 
数据 分 析 r= -1 完全 负 相关 显著 线 性 相关 / 明显 的 相关 性 2 
-= 0 不 相关 低 朗 线 性 相关 / 相 闪 性 不 明显 1 
数学 基础 -= 1 完全 正 相关 甬 线 性 相关 或 
AN 不 存在 线性 相 闪 
相关 系数 -1 -0.8 -0.5 -0.3 辣 
Correlation， >[(ci 一 习 ( 优 一 引 ] 
Coefyficienmt V 必 2 
亏 (人 一 (人 人 究 索 | 微 信 ShowMeAl 研究 中 心 
Ch itech/ 


(2 ) 线性 回归 (Linear Regression ) 


线性 回归 是 利用 数理 统计 中 回归 分 析 ， 确 定 两 种 或 
两 种 以 上 变量 间 相 互 依赖 的 定量 关系 。 


ee 名 
ee 元 线性 回归 
4 一 元 
数学 基础 亚 0 傣 三 万 十 历 叶 十 内 三 
人 夺 
线性 回归 人 
7 多 元 线性 回归 JW 
区 站 村 8 三 四 +Bizi+Baza 十 :十 Bo 十 信 开 二 | 咱 - 
| OO 全 过 | 征 售 ShowMeAl 研 究 中 心 | 
www.sh 


回归 分 析 中 ， 只 包括 一 个 目 变 量 和 一 个 因 变 量 ， 且 
二 者 的 关系 可 用 一 条 直线 近似 表示 ， 这 种 回归 分 析 
称 为 一 元 线性 回归 分 析 。 

如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 量 ， 且 
因 变 量 和 上 自 变 量 之 间 是 线性 天 系 ， 则 称 为 多 元 线性 
回归 分 析 。 


2.2 方差 分 析 


(1 ) 单 因素 方差 分 析 


一 项 试验 只 有 一 个 影响 因素 ， 或 者 存在 多 个 影响 因 
素 时 ， 只 分 析 一 个 因素 与 响应 变量 的 天 系 。 


(2 ) 多 因素 有 交互 方差 分 析 


一 项 实验 有 多 个 影响 因素 ， 分 析 多 个 影响 因素 与 响 
应 变量 的 关系 ， 同 时 考虑 多 个 影响 因素 之 间 的 关 


概率 论 
速 查 表 


。 http:/showmeai.techy/article-detaiy118 
。 http:/showmeai.tech/article-detail/117 


更 多 详细 讲解 图 解 Al 数学 基础 | 概率 与 统计 


公 独立 事件 PLAn 局 = PCOPG | 人 册 
0 数据 分 析 概率 对立 事件 PL4) =1- P(B) 排列 ” -ao) 5 
事件 互 斥 事件 PL4nB)=0 | 组合 cv- ( 何 下 二 本 
数学 基础 穷 举 事件 PLAUD =1 | 习 
概率 论 Ph 局 胃 
条 件 概率 。 PC4 | 司 = 世人 
0 站 全 概率 公式 P(B) = P(4B)+ PUB)= PL)P(B1 人 +PCDPGBI 有 | 
eory 拓 呈 全 
贝 叶 斯 定理 P(41 可 = 证 证 (COELB| JR 地 [ 届 司 ShowMeAl 研 究 中 心 | 
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3.1 概率 事件 


(1 ) 独立 事件 


PIAnB)=PI(IA)P(B) PNeft(Avcap BNight ) 
= PIAIP(B) PAnB)=P(A)P(B) 

(2 ) 对 立 事件 

情趣 斋 寺 三 生起 才思 站 (同和 二 多 站 次 三 位 户 介 j 


(3 ) 互 斥 事件 
P(AnB)=0Peft(AcapBNright)=0 
P(AnB)=0 

(4 ) 穷 举 事件 
P(AUB)=1Peft(AcupBxNright ) = 
P(AUB)=1 


3.2 条 件 概率 


(1 ) 条 件 概率 


PUAI|B)=PUIAB)JP(B)PAmidB) =- 
rac{P(AB)}H{P(B)} PUAIB)=P(B)P(AB) 


(2 ) 全 概率 公式 


P(B)=P(AB)+P(A B)=PLCA)P(BIAI) 
+P(A-)P(BIA-)P(B)= P(AB) +PObar{A) B) 
= P(A)P(B \mid A) + PCbar{A} )P(B \mid \bar{A} ) 
FAB)=P(AB)+F(A B)=F(A)PUBIA)+P(AJ)FPCBIA ) 


B 


(3 ) 贝 叶 斯 定理 


PUAITB 
(A )P 
A) 1 El mid A) + PCbarfA)P(B \mid \bar{A)) 
} PCAIB)=P(A)P(BIA)+P(AJ)PIBIAD)P(A)P(CBIA) 


站 )PLBIA)PUCA)P(BIA)+P 


) = 
(BA )PAxmidB) = frac{ P(A)P(B mid 


3.3 排列 组 合 


(CT ) 排列 


PnN=nlI(Nn)=NI(CN-n)IP{nAN)=nl 
begin{pmatrix NNnend(pmatrix} = \rac{NIT{T AIeft 
(N-n Yight )!} PnN=nl(Nn)=(N-m)INI 


(2 ) 组 合 


CnN=(Nn)=NInI(N-n)lcC {n^(N) = 
begin{fpmatrix N Nn end(pmatrix} = rac{NT{nl 
Meft (N-n \right )!}》 CnN=(Nn)=nlI(N-n)IN! 


3.4 概率 分 布 


过 续 型 概率 分 布 宛 散 型 概 率 分 布 < 
人 久 ) 正 态 人 布 z~ (oo ) 伯 弘 利 分 布 
数学 基础 7/ 

二 项 分 布 zw BOD) 2 
概率 论 ) 
Propap1hity 泊 松 介 布 2 信 忆 OA) 
THpeory 
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(1 ) 连续 型 概率 分 布 


正 态 分 布 : 正 态 概率 分 布 是 连续 型 随机 变量 中 最 重 
要 的 分 布 ， 记 为 


~N(H，a2)xXsim NMeft Amu ，\sigma^{2) 
xight) x~N(H ，a2) 


经 验 法 则 : 正 态 随 机 变量 有 69.3% 的 值 在 均值 加 城 
个 标准 差 的 范围 内 ，95.4% 的 值 在 两 个 标准 差 内 ， 
99.7% 的 值 在 三 个 标准 差 内 。 


(2 ) 离散 型 概率 分 布 
。 人 努 利 分 布 


进行 一 次 实验 ， 各 成 功 则 随机 变量 取 值 为 1， 各 失败 
则 取 值 为 0， 成 功 的 概率 为 p 失 败 的 概率 为 1-p 


。 二 项 分 布 


n 个 独立 的 是 / 非 实验 中 ， 成 功 次 数 的 概率 分 布 。n=1 
时 ， 二 项 分 布 就 是 伯 努 利 分 布 


。 泊 松 分 布 
在 连续 时 间或 空间 单位 上 发 生 随 机 事件 次 数 的 概 
率 。 记 为 $$$$ 


四 、 统 计 推 断 
更 多 详细 讲解 图 解 Al 数学 基础 | 概率 与 统计 


4.1 抽样 


抽样 : 应 该 满足 抽样 的 随机 性 原则 。 
抽样 方法 : 简 间 随 机 抽样 、 分 层 抽 样 、 整 群 抽 样 、 
系统 抽样 


4.2 置信 区 旧 


加 | 
图 isjr 


已 知 5 过 部 一 
置信 区 间 ET EE 
数学 基础 本 > 2 
站 隐 已 知 s 丈 丈 上 tp- 一 大 
统计 推断 可 ms30 
Statijstical 二 三 二 甩 ,型 三 动 
/npferemce 邢 总 体 上 比例 mL- 癌 >5 Se 
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4.3 假设 检验 


@@, if 1 确定 假设 。 凤 : 原 假 加 
实际 情况 设 ; 如 ; 备 树 假设 ”上 
数学 基础 假设 检验 < 2， 选 祥 检 验 统计 量 。 王 
两 类 错误 | 而 正确 。 肋 错误 3， 确定 福 绝 域 2 
4 4。 求 验证 统计 量 的 器 值 沁 
到 5 判断 样 本 结果 是 否 位 “ 
统计 栓 疡 _ 一 大 绝 机 工 类 错误 正确 人 
Statistical 研究 做 出 决策 
11f2eremce 论 信人 
2 忆 5 认 索 | 徽 信 ShowMeAl 研 究 中 心 | 
Rhttpywwwwshowmeaitechy 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 址 下 载 获 
取 : 


。Pandas 速 查 表 


。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
。Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 


。Pandas 数 据 分 组 与 操作 
。 数据 可 视 化 原则 与 方法 
。 基于 Pandas 的 数据 可 视 化 
。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


图 解 效 据 分 析 | 业务 认 知 与 效 
据 初 探 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123131630 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 
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作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/137 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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效 据 分 析 分 核心 步骤 分 为 : 业务 认 知 与 数据 探 
系 、 数 据 预 处 理 、 业 务 认 知 与 数据 探索 等 三 个 
核心 步骤 。 


本 文 介绍 第 一 个 步 又 


二 
人 有余 。 


一 、 单 见 业务 目标 


业务 认 知 与 数据 探 


:| 冰 四 次 虑 河和 珠 


得 
本 
漠 
油 
娼 
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预测 分 析 诊断 分 析 


他 http:Wwwwsl 


(1 ) 描述 性 分 析 : 分 析 和 描述 数据 的 特征 


描述 性 分 析 是 处 理 信 息 汇 总 的 好 方法 ， 与 视觉 分 析 
相 结 合 ， 可 以 提供 全 面 的 数据 结构 ， 并 通过 仪表 板 


展示 所 得 到 的 结论 。 企 业 中 通过 分 析 KPI 来 评估 绩 
效 的 做 法 ， 就 是 描述 性 分 析 的 营 见 应 用 之 一 。 


(2 ) 预测 分 析 : 预测 未 来 的 结 


预测 分 析 是 一 个 复杂 的 领域 ， 需 要 较 大 大 规模 的 历 
史 效 据 ， 并 借助 技术 进步 (尤其 是 机 器 学 习 ) 构建 
高 并 发 的 预测 模型 ， 以 获得 有 关 未 来 的 预测 性 洞 
案 


oO 


(3 ) 诊断 分 析 : 透 过 数据 诊断 实际 问题 


通过 诊断 分 析 ， 可 以 对 效 据 进行 批判 性 思考 ， 判 断 
实际 存在 的 问题 ， 并 进一步 优化 管理 或 减少 损失 。 
物流 企业 使 用 诊断 分 析 可 以 威 少 物 流 延 迟 ， 电 商 企 
业 可 以 借助 诊断 分 析 更 新 营销 策略 ， 降 本 提 效 。 


(4 ) 规范 分 析 : 数据 分 析 的 集大成 者 


规范 分 析 结 合 了 上 述 所 有 分 析 技 术 ， 可 以 帮助 公司 
在 数据 结论 的 基础 上 制定 相关 决策 。 需 要 注意 的 
是 ， 使 用 规范 分 析 的 必要 基础 是 足够 大 的 数据 规 
模 、 数 量 使 用 Al 技术 ， 也 因此 常 被 应 用 于 大 型 互联 
网 公司 (如 Google ) 和 金融 机 构 。 


二 、 音 见 业务 指标 
2.1 虚荣 指标 VS 有 效 指标 


指标 是 衡量 事物 好 坏 的 一 个 指 效 。 数 据 指标 很 多 ， 
北极 星 指标 ， 二 级 指标 、 定 性 指标 、 量 化 指标 、 虚 
条 指标 等 等 。 好 的 数据 指标 ， 应 该 为 产品 业务 线 所 
在 的 发 展 阶段 提供 指 5|， 而 有 些 效 据 却 起 到 了 相反 
的 作用 。 


| 
5 
数据 分 析 ， 离 不 开 对 关键 指标 的 跟踪 到 
虚荣 指标 (Vamity Wetric9) 了 
让 人 感觉 眼 好 却 是 肤浅 甚至 带 有 多 诈 性 的 四 
有 效 指标 (Crmtyr Wetrics) 
真正 能 澡 来 效益 的 指标 
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。 虚荣 指标 (Vanity Metrics ) 人 良好 ， 却 
是 肤浅 甚至 带 有 欺诈 性 的 。 例 如 ， 只 关注 网 站 
的 访问 量 C(PV、UV ) ， 却 忽 腹 跳高 率 用 户 
浏览 时 间 等 数据 指标 时 ， 就 很 容易 掉 进 虚荣 指 
标 带 来 的 陷阱 。 

。 有效 指标 (Clarity Metrics ) 指 那些 真正 能 带 来 
效益 的 指标 。 例 如 ， 转 化 率 、 留 存 率 、 日 活跃 


人 数 占 比 等 ， 可 以 更 好 地 洞察 产品 和 用 户 行 为 
的 实际 走向 。 


2.2 选择 合适 的 指标 


(1) 比率 指标 


比率 指标 具备 “比较 性 ， 从 而 成 为 最 佳 数据 指 
标 。 举 个 开车 的 例子 ， 里 程 透露 的 是 距离 信息 ， 而 
速度 (距离 /时 间 ) 才能 告诉 你 是 在 加 速 ， 还 是 城 
比率 指标 的 比较 对 象 ， 是 不 同时 期 的 “自我 。 对 
比 ， 用 以 比较 事物 的 增长 趋势 ; 或 同一 时 期 不 同 对 
象 之 辣 的 对 比 ， 用 以 比较 不 同事 物 的 增长 大 小 。 


名 因 纪 
氟 分 析 思 维 好 的 数据 指标 必定 是 具备 由 绝 主 的 

业务 认 知 

上 


吧 

豆 

“00 。 与 时 间 相 关 的 比率 痢 标 
YNSS | 与 数 时 有 关 的 比率 比例 
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通常 情况 下 ， 用 户 行为 分 析 使 用 以 下 比率 指标 (或 
0 


。 与 时 间 相 天 的 指标 “XXX 速度 ， 例 如 ， 


新 用 户 增 速 〈 单位 时 间 内 新 用 户 的 数量 ) ， 
。 与 数量 有 关 的 比例 一 "XXX 率 / 比 。， 例 如 ， 
活跃 用 户 比 〈 活跃 用 户 占 总 用 户 数 的 比例 ) 。 


(2 ) 多 指标 联合 分 析 


抛 开 基 数 ， 比 率 的 意义 会 大 打折 扣 。 引 用 《效益 交 
据 分 析 》 中 的 例子 “你 的 产品 刚 上 线 时 ， 从 严格 意 


义 上 讲 ， 你 爸爸 注册 一 个 账号 ， 也 可 以 使 你 的 用 户 
量 翻 倍 * 


注意 ! 虽然 比率 是 最 佳 的 数据 指标 ， 但 也 需要 辅 以 
其 他 定性 指标 和 定量 指标 。 指 标 从 来 不 是 单独 存在 
的 ， 而 应 该 从 多 个 指标 来 综合 评估 。 这 需要 了 解 指 
标 之 间 的 耦合 性 ， 设 计 指 标 系统 ， 从 各 个 角度 来 揭 
示 数 据 中 隐藏 的 事实 。 


2.3 结合 应 用 场景 


分 析 数 据 和 设计 关键 指标 时 ， 应 结合 实际 业务 ， 还 
原 到 具体 的 场景 中 。 例 如 ， 在 分 析 用 户 的 行为 时 ， 

用 户 对 服务 或 产品 的 黏 性 (Stickiness ) 是 一 个 有 效 
指标 。 在 不 同 使 用 场景 中 ， 粘 性 的 衡量 指标 也 有 差 


马 . 
天 


竹 性 是 指 客 户 购买 产品 或 服务 之 后 ， 愿 意 再 次 购买 


或 者 推荐 给 别人 的 程度 。 


几 种 不 同 场景 下 的 
沾 性 痢 标 
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。 跳 离 率 (Bounce Rate ) : 对 于 内 容 产 品 ， 当 
访客 点 击 你 的 网 页 时 ， 有 多 少 人 会 马上 关闭 ， 


百分比 是 多 少 。 


。 转 化 率 〈(Conversion Rate ) : 当 产 品 推广 
时 ， 转 化 率 是 注册 人 数 和 访客 人 数 比 例 ， 表 示 
有 多 少 访客 真正 变 成 网 站 的 注册 用 户 。 


。 留存 率 〈Retention Rate ) : 对 于 新 用 户 ， 用 
于 测试 新 用 户 在 某 段 时 间 内 开始 使 用 产品 ， 经 
过 一 段 时 间 后 ， 继 续 使 用 产品 的 用 户 的 比例 。 


。 活跃 度 也 是 一 个 有 效 的 度量 。 对 于 社交 网 站 来 
说 ， 日 活跃 用 户 人 数 (Daily Active Users， 
DAU ) 占 比 是 一 个 关键 的 指标 。 


2.4 典型 案例 


al 
典型 案例 ; 司 
在 一 次 云 产品 宣讲 会 (活动 ) 中 ,举办 方 对 产品 的 重大 更 新 做 了 全 方位 的 演示 和 污 
讲解 ， 希 望 通过 绕 下 的 互动 和 线 上 的 直 醚 ,吸引 更 多 的 用 户 使 用 产品 


对 活动 效益 进行 评价 


乌有 co 计 


参与 度 (Engagement ) 
际 。 观察 新 用 户 的 行为 
观察 老 用 户 行为 
观察 产品 的 用 量 
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案例 : 在 一 次 云 产品 宣讲 会 ( 活动 ) 中 ， 举 办 方 对 
产品 的 重大 更 新 做 了 全 方位 的 演示 和 讲解 ， 和 希望 通 
过 线 下 的 互动 和 线 上 的 直播 ， 来 吸引 更 多 的 用 户 使 
用 产品 。 


(1 ) 明确 分 析 目 标 


如 果 目 标 是 对 活动 效益 进行 评价 ， 你 作为 一 名 数据 
分 析 人 员 7 会 怎么 做 2 


思路 : 对 于 该 场景 ， 可 以 使 用 同期 群 分 析 ， 按 照 与 
会 人 员 是 否 注册 ， 把 与 会 人 员 细 分 为 未 注册 人 员 
(潜在 用 户 ) 和 已 注册 人 员 ( 老 用 户 ) 。 


。 活动 结束 后 ， 有 些 未 注册 用 户 转化 成 为 新 用 
户 。 吸 引 新 用 户 注册 的 动力 可 能 有 多 种 ， 最 常 
见 的 是 免费 试用 。 后 续 可 以 追踪 不 同 来 源 用 户 
的 产品 使 用 行为 。 


。 老 用 户 是 产品 的 粉丝 , 是 付费 用 户 ， 能 够 为 公 


司 融 来 收益 。 已 付费 的 用 户 可 能 会 流失 ， 也 有 
可 能 更 依赖 产品 、 更 加 频繁 地 使 用 产品 。 


。 注意 ! 分 析 用 户 行为 时 ， 应 该 意识 到 ， 有 些 用 
户 虽 然 不 能 带 来 直接 的 收益 ， 但 可 以 璋 来 更 多 
用 户 ， 从 而 间接 为 公司 创造 收益 。 


(2 ) 设计 分 析 指 标 

思路 : 将 人 的 行为 作为 出 发 点 , 从 “定量 数据 。 和 
"定性 数据 。 两 个 角度 来 设计 指标 。 为 了 分 析 活 动 
获得 的 效益 ， 可 以 制定 以 下 关键 指标 : 


[1] 参与 度 (Engagement ) : 衡量 有 多 少 人 参加 此 
次 活动 ， 用 于 评价 活动 的 影响 力 


。 总 人 数 、 老 用 户 人 数 、 潜 在 用 户 人 数 。 


。 参与 活动 之 后 ， 有 多 少 用 户 注册 了 (免费 版 或 
试用 版 ) 。 


[2] 观察 新 用 户 的 行为 : 转化 率 可 以 评价 活动 效益 ， 
留存 率 可 以 评估 新 用 户 对 产品 的 粘性 

与 会 的 、 未 注册 的 人 员 ， 是 产品 的 潜在 用 户 。 不 管 
采用 “免费 试用 。 还 是 “购买 + 赠送 。 等 推广 方 

法 ， 只 要 用 户 注册 ， 就 可 以 认为 是 完成 了 一 次 转 


化 。 


。 新 用 户 的 转化 率 (Conversion Rate ) : 参与 


活动 之 后 注册 为 新 用 户 的 比例 ， 转 化 率 越 高 
说 明 产 品 对 用 户 的 吸引 力 越 遍 ， 活 动 获得 的 效 
荔 越 好 。 


对 新 用 户 的 来 源 和 转化 路 径 进 


了 分 析 ， 有 助 于 确定 哪些 来 源 带 来 了 更 多 有 效 
， 


。 新 用 户 的 转化 路 径 〈 转化 漏斗 ) : 通过 免费 试 


用 (Free Trial ) 注册 的 新 用 户 ， 其 转化 路 径 的 
数据 指标 依次 为 “新 试用 (New Trial ) 。 “次 
日 活跃 (Activated Trial ) gz7 日 活跃 
(Activated Trialin7 days) ua 。 


。 新 用 户 的 留存 率 : 在 连续 的 计 费 周期 内 ， 同 期 


新 用 户 中 仍然 活跃 的 用 户 所 占 的 比例 。 


[3] 观察 老 用 户 行为 : 忠诚 度 与 考 用 户 用 量 


老 用 户 是 指 在 参加 活动 之 前 ， 已 经 注册 的 用 户 ， 这 
批 用 户 是 产品 的 忠实 粉丝 。 ,也 
能 评估 活动 效益 的 。 


忠诚 度 是 指 用 户 使 用 产品 的 频繁 程度 ， 以 及 对 产品 
及 服务 的 依赖 程度 。 如 果 此 次 活动 促使 老 用 户 更 频 
繁 地 使 用 产品 ( 即 老 用 户 的 用 量 增加 ) ， 则 说 明 举 
办 此 次 活动 提升 了 老 用 户 的 忠诚 度 ， 带 来 了 效益 的 
增加 。 


。 老 用 户 的 用 量 增长 : 参与 活动 之 后 ， 老 用 户 的 
用 量 与 前 一 个 付费 周期 的 用 量 相 比 ， 是 增 是 
戌 。 
。 用量 增长 的 用 户 占 比 : 参与 活动 之 后 ， 用 量 增 
长 的 用 户 握 比 。 
考虑 一 些 特殊 情况 ， 有 多 少 老 用 户 被 召回 ， 有 多 少 
老 用 户 流失 : 


。 僵尸 账户 激活 (CNew biled Customers ) : 有 
多 少 老 用 户 离开 之 后 ， 重 新 为 产品 或 服务 付 
费 。 


。 付费 用 户 流 失 (Churned Customers ) : 用 户 
在 一 个 付费 周期 内 ， 不 再 付费 购买 产品 或 服 


产品 的 用 量 ， 也 是 一 个 评价 活动 效益 的 有 效 指标 。 
而 用 户 使 用 产品 这 一 行为 ， 实 际 上 在 消费 产品 提供 
的 服务 。 增 加 “服务 类 型 。 这 一 维度 ， 可 以 评估 用 
量 的 增长 是 否 与 本 次 活动 有 关 一 一 对 比 总 用 量 、 与 
活动 主题 相 天 的 用 量 。 


。 如 果 与 主题 相关 的 用 量 增长 较 大 ， 总 的 用 量 增 
长 较 平缓 ， 那 么 说 明 此 次 活动 促进 了 用 量 的 增 
长 5 


。 如果 与 主题 相关 的 用 量 增长 平缓 ， 总 的 用 量 增 
长 也 平缓 ， 那 么 说 明 此 次 活动 对 用 量 的 增长 没 
有 作用 。 


注意 ! 对 比 要 有 可 比 。 在 比 对 数据 的 处 理 上 ， 应 易 
除 新 用 户 对 数据 的 影响 。 以 活动 的 举办 时 间 为 分 割 
点 ， 只 比 对 老 用 户 在 前 N (1-3 ) 个 付费 周期 内 和 后 
N (1-3 ) 个 付费 周期 内 的 用 量 。 为 了 更 精确 地 计算 
用 量 ， 应 该 避免 个 别 因素 的 影响 ， 可 以 使 用 2-3 个 付 
费 周 期 内 用 量 的 均值 。 


老 用 户 的 用 量 增长 分 析 : 


。 用量 增长 的 老 用 户 占 比 
。 在 参加 活动 之 后 ， 老 用 户 消费 的 用 量 增加 多 


少 ， 增 长 的 比例 是 多 少 
. 每 位 用 户 的 平均 用 量 


与 活动 主题 相关 的 用 量 增长 分 析 : 


。 用量 增长 的 老 用 户 占 比 〈 与 活动 相 天 ) 

。 在 参加 活动 之 后 ， 老 用 户 消费 的 用 量 增加 多 
少 ， 增 长 的 比例 是 多 少 〈 与 活动 相关 ) 

。 每 位 用 户 的 平均 用 量 〈 与 活动 相关 ) 


(3 ) 按 需 调整 


A_v 


要 注意 ， 数 据 分 析 应 结合 业务 ， 根 据 面临 的 主要 问 
题 ， 设 置 天 键 的 数据 指标 ， 以 回答 决策 中 遇 到 的 难 
题 。 例 如 : 


。 当 产品 没有 知名 度 时 ， 网 站 的 访问 量 可 以 作为 
一 个 天 键 指标 。 

。 当 有 了 大 量 的 用 户 基数 时 ， 可 以 把 注册 人 数 
(或 试用 人 数 ) 作为 天 键 指标 。 

。 当 注册 人 数 增加 到 一 定 程度 时 ， 可 以 把 转化 率 
( 即 ， 免 费用 户 转 化 为 付费 用 户 ) 作为 天 键 指 
标 。 


2.5 网 站 分 析 音 用 数据 指标 


附 上 网 站 分 析 中 常用 的 数据 指标 ， 你 能 识别 哪些 是 
虚荣 指标 吗 ? 


网 站 分 析 常 用 数据 指标 = 
里 
全 饭 丰 四 远 
| 下 
站 用 户 行为 ”转化 在 来 源 访客 属性 

全。 指标。 指标 。 辣 标 一 一 一 分 析 一 一 一 分 析 
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(1 ) 网 站 沉 量 指标 


页 面 浏览 量 (Page View，PV ) : 访客 每 打开 
一 个 页 面 就 被 记录 一 次 。 


独立 访客 数量 (Unique Visitors ，UV ) : 一 天 
之 内 网 站 的 唯一 访客 数量 。 


重复 访客 数量 ( Repeat Visitors ，RV ) : 一 天 
之 内 ， 重 复 访 问 网 站 的 访客 。 


访客 访问 的 页 面 浏览 量 ( Page Views per 
User ) : 平均 每 个 访客 访问 的 页 面 数量 ， 指 标 
高 的 话 ， 说 明 用 户 黏 性 高 ， 也 就 是 说 ， 访 客 显 
示 出 对 网 站 感 兴 趣 、 愿 意 长 时 间 停 留 。 


(2 ) 用 户 行为 指标 


。 跳出 率 : 表示 用 户 只 浏览 一 个 页 面 便 离 开 了 网 
站 ， 跳 出 率 显 示 了 访客 对 网 站 的 兴趣 程度 : 跳 
出 率 越 低 说 明 访客 对 网 站 越 感 兴 趣 。 


。 平均 访问 时 长 : 是 指 每 次 访问 的 停留 时 长 ， 该 
指标 越 大 ， 则 说 明 访 客 停留 在 网 页 上 的 时 间 越 
长 ， 对 网 站 越 感 兴 趣 。 


。 平均 访问 页 数 : 是 指 每 次 访问 浏览 的 页 面 数 
量 ， 该 指标 越 大 ， 则 说 明 访客 对 网 站 越 感 兴 
趣 。 


(3 ) 转化 指标 


。 转化 次 数 : 是 指 访 客 到 达 转 化 目标 页 面 的 次 
数 ， 转 化 表示 访客 做 了 网 站 管理 者 希望 访客 做 
的 事 ， 与 网 站 运营 者 期 望 达到 的 推广 目的 有 
天 。 


。 转化 率 : 是 指 访问 转化 的 效率 ， 转 化 率 = 转化 
次 数 /访问 次 数 ， 转 化 率 越 高 ， 说 明 网 站 的 推广 
效果 越 好 。 


。 转化 路 径 : 路 径 是 指 访客 在 抵达 您 设置 的 目标 
页 面前 所 经 过 的 一 系列 中 间 页 面 ， 转 化 即 指 潜 


在 客户 完成 一 次 您 期 望 的 行动 ， 与 您 的 推广 目 
的 和 对 推广 效果 的 定义 密切 相关 。 通 过 对 转化 
路 径 的 跟踪 ， 您 可 以 了 解 访 客 对 转化 各 个 步骤 
的 访问 情况 。 


(4) 留存 指标 


。 留存 人 数 : 注册 用 户 在 第 一 次 访问 网 站 之 后 ， 
在 下 一 个 周期 内 继续 使 用 网 站 的 人 数 。 


。 留 存 率 〈Retention Rate ) : 在 下 一 个 周期 内 
继续 使 用 网 站 的 人 数 ， 占 当期 注册 用 户 的 比 
例 ， 留 存 率 越 高 ， 说 明 用 户 对 网 站 的 黏 性 越 


局 。 
(5 ) 来 源 分 析 


。 来源 : 访客 以 哪些 方式 访问 网 站 ， 直 接 访问 ， 
或 搜索 引擎 。 


。 搜索 词 分 析 : 在 各 类 搜索 引擎 上 通过 哪些 搜索 
词 找到 并 访问 了 网 站 。 


(6 ) 访客 属性 分 析 


访客 的 年 龄 
.访客 的 地 域 


。 老 访客 /新 访客 


三 、 探 么 性 效 据 分 析 


数据 分 析 的 基础 是 对 数据 的 认 知 ， 先 有 数据 ， 而 后 
有 分 析 。 没 有 可 信 的 数据 ， 数 据 分 析 的 结果 将 是 空 
中 楼 网 。 变 量 和 数据 是 数据 分 析 中 常用 的 概念 : 变 
量 来 描述 事物 的 特征 ， 而 数据 是 变量 的 具体 值 ( 也 
叫 观 测 值 ) 。 


"” 区 间 标 度 


二 数据 。 关 邓 组 和 允 了 组 2 
。 文本 数 并 .数值 数据 和 日 期 时 有 短 过 | 入 人 全 MeA 研究 中 心 


变量 用 来 描述 总 体 中 成 员 的 某 一 个 特性 。 在 数据 分 
析 中 ， 变 量 (Variable ) 可 以 和 属性 、 维 
CDimension ) 、 特 征 (feature ) 互 换 使 用 。 常 见 


变量 有 性 别 、 年 龄 、 身 高 、 收 入 等 。 
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(1 ) 定性 变量 

定性 变量 是 指 用 文本 描述 对 象 的 特征 。 定 性 数据 通 
常 是 分 析 数据 的 一 个 角度 ， 增 加 维度 ， 从 不 同 的 角 
度 来 看 待 问题 ， 能 够 细 分 指标 ， 增 加 分 析 的 深度 。 


定性 变量 主要 分 为 三 类 : 


。 标 称 变量 : 也 叫做 类 别 变量 ， 用 于 对 数据 对 象 


分 类 (Category ) 。 比 如 ， 头 发 的 颜色 、 职 
业 。 


。 二 元 变量 : 只 有 两 个 类 别 的 变量 ， 如 果 二 元 变 
量 的 两 种 状态 具有 同等 价值 或 具有 相同 的 权 
重 ， 那 么 认为 该 二 元 变量 是 对 称 的 ， 例 如 ， 性 
别 ; 非 对 称 是 指 两 种 状态 的 结果 不 是 同样 重要 
的 。 例 如 ， 是 人 否 吸烟 对 治疗 的 效果 而 言 ， 其 权 
重 是 不 同 的 。 


。 序数 变量 : 变量 的 顺序 是 有 意义 的 ， 通 常用 于 
等 级 评定 。 通 常情 况 下 ， 序 数 变量 是 定性 的 文 
本 ， 比 如 ， 官 职 、 消 费 者 满意 度 。 但 是 ， 序 数 


变量 也 可 以 通过 把 数值 变量 分 割 成 不 同 的 区 间 
来 得 到 ， 比 如 ， 年 龄 段 。 

量 ， 叫 做 
时 间 变 量 ， 一 些 党 见 的 分 析 方法 ， 比如 时 
序 分 析 ， 周 期 性 分 析 等 都 是 基于 时 间 变 量 
的 。 


(2 ) 定量 变量 

定量 变量 是 指 用 数值 描述 对 象 ， 可 以 比较 大 小 ， 
可 以 量化 的 变量 。 定 量变 量 通常 含有 量 纲 。 网 如 ， 
身高 的 量 纲 是 cm， 而 薪水 的 量 纲 是 元 。 同 一 量 纲 的 
效 据 可 以 比较 大 小 ; 不 同 量 纲 的 数据 ， 需 要 通过 归 


一 化 去 量 纲 之 后 ， 比 较 大 小 才 有 意义 。 定 量变 量 
要 分 为 两 个 标 度 : 


。 区间 标 度 : 可 度量 的 数值 ， 用 整数 或 实数 表 
示 。 比 如 ， 年 纪 、 薪 水 


。 比率 标 度 : 比例 数值 。 比 如 ， 速 度 、 留 存 率 


3.2 数据 
数据 是 变量 的 具体 值 。 


按照 变量 的 类 型 ， 可 以 把 数据 分 为 : 分 类 数据 、 顺 
序数 据 和 数值 型 数据 。 


按照 数据 分 析 的 目的 ， 可 以 把 数据 分 为 : 实验 组 
CTreatment ) 和 参照 组 (Control ) 。 


按照 数据 的 类 型 ， 可 以 把 数据 分 为 : 文本 数据 、 数 
值 型 数据 和 日 期 时 间 数 据 。 


3.3 效 据 基 本 统计 换 述 


统计 是 数据 分 析 的 好 助手 ， 查 看 数据 集 的 基本 统计 
指 述 ， 能 够 帮助 我 们 了 解数 据 的 全 貌 ， 识 别 数据 的 
分 布 特征 。 由 于 定量 数据 天 生 具 有 计算 的 特性 ， 数 
据 的 分 布 通 弟 是 针对 定量 数据 进行 的 统计 摘 述 。 
基本 统计 描述 主要 是 指 从 数据 的 集中 趋势 、 离 散 趋 
势 和 分 布 来 认识 数据 。 每 个 统计 描述 ， 都 使 用 特定 
的 统计 量 来 衡量 。 


数据 分 析 的 数学 基础 
资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 


宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。Seaborn 官 方 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 
。 业务 认 知 与 数据 初探 
。 数据 清洗 与 预 处 理 
。 业务 分 析 与 效 据 挖掘 


。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


图 解 效 据 分 析 | 效 据 请 洗 与 预 
处 理 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123132048 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 
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作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:/www.showmeai.tech/article- 
detail/138 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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业务 认 知 业务 分 析 
与 与 
数据 榨 索 数据 挖 查 
宁 要 索 | 微 舍 SGWMEAI 碘 究 中 心 


效 据 分 析 分 核心 步骤 分 为 : 业务 认 知 与 数据 探 
索 、 数 据 预 处 理 、 业 务 认 知 与 数据 探索 等 三 个 
核心 步骤 。 本 文 介 绍 第 二 个 步骤 一 一 效 据 预 处 
理 。 


不 能 想当然 地 认为 数据 是 有 效 的 。 

在 现实 世界 中 ， 数 据 一 般 都 是 异 构 的 、 有 缺失 的 、 
有 量 纲 的 。 有 些 数 据 是 从 多 个 不 同 的 数据 源 中 获取 
的 ， 这 些 异 构 数据 ， 在 各 自 的 系统 中 都 是 正确 无 误 
的 ， 只 不 过 很 有 "个 性 "。 


例如 ， 有 的 系统 中 使 用 和 1， 代 表 性 别 ; 而 有 
些 系统 使 用 二 Im 代表 性 别 。 


。 在 使 用 数据 之 前 ， 首 先 要 对 数据 做 规整 处 理 ， 
使 用 一 致 的 单位 、 使 用 统一 的 文本 来 描述 对 象 

。 有 些 数 据 中 包含 大 量 重 复 的 数据 、 缺 失 的 数 
据 、 或 者 离 群 的 数据 ， 在 开始 分 析 数 据 之 前 ， 


必须 好 好 检查 数据 是 否 有 效 ， 并 对 数据 做 预 处 
理 操作 。 

。 判断 离 群 数值 ， 并 对 其 分 析 ， 有 时 会 导致 重大 
发 现 的 产生 。 


一 、 效 据 规整 


mm 
mm 
邮 四 
AN 
加 


所 谓 量 纲 ， 简 音 来 说 ， 就 是 说 数据 的 单位 。 有 些 数 
据 是 有 量 纲 的 ， 比 如 身高 ; 而 有 些 数据 是 没有 量 纲 
的 ， 例 如 ， 男 女 比 例 。 不 同 评价 指标 往往 具有 不 同 
的 量 纲 ， 数 据 之 间 的 差别 可 能 很 大 ， 不 进行 处 理会 
影响 到 数据 分 析 的 结 


数据 标准 化 
色 
数据 归 一 化 


全 本 AR 后生 人 生生 


归 一 化 能 够 避免 值 域 和 量 
纲 对 数据 的 影响 ， 便 于 对 
数据 进行 综合 分 析 。 
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1.2 数据 标准 化 
为 了 消除 指标 之 间 的 量 纲 和 取 值 范围 差异 对 数据 分 


析 结 果 的 影响 ， 需 要 对 数据 进行 标准 化 处 理 。 就 是 
说 ， 把 数据 按照 比例 进行 缩放 ， 使 之 落 入 一 个 特定 
的 区 域 ， 便 于 进行 综合 分 析 。 


1.3 效 据 归 一 化 


归 一 化 是 数据 标准 化 中 最 简单 的 方式 ， 目 的 是 把 数 
变 为 [0, 1] 之 间 的 小 数 ， 把 有 量 纲 的 数据 转换 为 无 
量 纲 的 纯 数 量 。 归 一 化 能 够 避免 值 域 和 量 纲 对 数据 
的 影响 ， 便 于 对 数据 进行 综合 分 析 。 


举例 说 明 

举 个 简单 的 例子 ， 在 一 次 考试 中 ， 小 明 的 语文 成 绩 

是 100 分 、 员 语 成 绩 是 100 人 分， 单间 从 这 考试 成 绩 来 

评价 ， 小 明 的 语文 和 喘 语 学 的 一 样 好 。 但 是 ， 如 果 

你 知道 语文 总 分 是 150 分 ， 而 天 语 总 分 只 有 120 分 ， 

你 还 认为 小 明 的 语文 和 英语 成 绩 是 一 样 的 吗 ? 

对 小 明 的 成 绩 做 简单 的 归 一 化 : 
采用 离 兰 归 一 化 方法 ， 公 式 是 : y = (x-min)/ 
range， 这 里 设 min=0， 那 么 range = max - 


min = max，, 由 此 推算 出 小 明 的 语文 成 绩 是 
4/6， 瑞 语 成 绩 是 5/6。 因 此 ， 判 定 小 明 的 英语 


成 绩 好 于 语文 成 绩 。 


还 原 到 真实 的 场景 中 ， 各 科 的 考题 难度 不 尽 相 
同 ， 设 班级 中 语文 的 最 低 分 数 是 min 语 文 = 
60， 英 语 的 最 低 分 数 是 min 英 语 = 85， 推 算出 
小 明 的 语文 成 绩 是 0.44 = (100-60 ) / 
(150-60 ) ， 英 语 成 绩 是 0.43 = 〈100-85 ) / 
(120-85 ) ， 据 此 ， 可 以 判断 小 明 的 英语 成 绩 
稍 差 于 语文 成 绩 。 


归 一 化 的 使 得 具有 不 同 值 域 、 不 同 量 纲 的 数据 之 间 
具有 可 比 性 ， 使 数据 分 析 的 结果 更 加 全 面 ， 更 接近 


二 、 效 据 异 单 值 检测 与 分 析 


异常 值 在 统计 学 上 的 全 称 是 疑似 异常 值 ， 也 称 作 离 
群 点 (outlien， 异 常 值 的 分 析 也 称 作 离 群 点 分 析 。 


异常 值 分 析 是 检验 数据 中 是 否 存在 不 合 常理 的 数 
据 ， 在 数据 分 析 中 ， 既 不 能 忽视 异常 值 的 存在 ， 也 
不 能 简单 地 把 异常 值 从 数据 分 析 中 剔除 。 重 视 异 常 
值 的 出 现 ， 分 析 其 产生 的 原因 ， 常 常 成 为 发 现 新 问 
题 进而 改进 决策 的 奖 机 。 


: 
En 异常 值 / 离 群 点 Outliers 国 
仅 据 分 析 思 维 到 
CUTLIERS 一 注意 ! 离 群 点 是 异常 的 数据 点 ， 僵 
不 一 庆 有 人 训 的 到 点 。 。 志 


和 @ 既 不 能 忽视 异常 值 的 存在 ， 也 不 
电 能 简单 地 把 异常 值 从 数据 分 析 中 
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在 上 图 中 ， 离 群 点 (outlier ) 跟 其 他 观测 点 的 偏离 
非常 大 。 注 意 ， 离 群 点 是 异常 的 数据 点 ， 但 是 不 一 
定 是 错误 的 数据 点 。 


2.1 离 群 点 检测 
数据 分 析 的 数学 基础 


(1 ) 摘 述 性 分 析 方 法 


在 数据 处 理 过 程 中 ， 可 以 对 数据 做 一 个 描述 性 分 

析 ， 进 而 查看 哪些 数据 是 不 合理 的 。 常 用 的 统计 量 
是 最 大 值 和 最 小 值 ， 用 来 判断 变量 的 取 值 是 否 超出 
了 合理 的 范围 。 例 如 ， 客 户 年 龄 的 最 大 值 是 199 ， 

该 值 存在 异常 


(2 ) Z-Score 方 法 


出 现 的 概率 为 P-0.003 局 
离 群 点 检测 属 干 小 概率 事件 台 
3c 原 则 : 数据 服从 正 态 分 布 ，T 一 组 双 
测定 值 中 , 与 平均 值 的 偏差 超过 三 倍 则 & 
标准 差 (3c) 的 值 被 定义 为 异常 值 。 二 -| 
3 -oo -lo 虽 lz 26 3o 虽 < 

-Score 方法 : 数据 不 服从 正 态 分 布 ， -sw | 

加 以 用 Z-Score 来 描述 ， ZScore 2 

凡人 竺 干 " 与 平均 值 /的 距离 是 标准 差 c 的 2 一 Score 二 7 
多 少 倍 4 。( 经 验 值 为 3) ) 禄 志 | 微 信 ShowMeAl 研究 中 心 | 


[1] 3 原则 


在 介绍 Z-score 方 法 之 前 ， 先 了 解 一 下 30 原 则 一 一 
如 果 数 据 服从 正 态 分 布 ， 在 3 原则 下 ， 异 常 值 被 定 
义 为 “一 组 测定 值 中 ， 与 平均 值 的 偏差 超过 三 倍 标 
准 差 的 值 。。 


在 正 态 分 布下 ， 距 离 平 均值 3a 之 外 的 值 出 现 的 概率 
为 P(|x-Hl>3a)<=0.003， 属 于 极 个 别 的 小 概率 事 
件 。 在 3 原则 下 ， 如 果 观 测 值 与 平均 值 的 差 值 超过 
3 倍 标准 差 ， 那 么 可 以 将 其 视 为 异常 值 。 


[2] Z-Score 


如 果 数 据 不 服从 正 态 分 布 ， 则 可 以 用 “与 平均 值 的 
距离 是 标准 差 的 多 少 倍 。 来 描述 ， 这 个 倍数 就 是 Z- 
scor。 


Z-Score 以 标准 差 〈(a ) 为 单位 ， 去 度量 某 一 原始 分 
数 (X ) 偏离 平均 数 (Ch ) 的 距离 。 Z-Score 需 要 根 


据 经 验 和 实际 情况 来 决定 ， 通 常 把 远离 标准 差 3 倍 距 
离 以 上 的 数据 点 视 为 离 群 点 。 


Python 代码 的 实现 如 下 : 


车 思 @ 臣 攻 DUmDNaiS 且 和 划 


import Pandqas as Pd 


qdqef qdqetect_out1liers (dqatarthresholdq=3) : 
mean aq = np.mean(dqata) 
Sg 砷 Ga 生 三 呈 mDsSsiecakaate ay 


Glenms 三 到 辣 


ONGdaiea 本 Oo 
zZ_Sscore= (y -= mean qdq) /sta_d 
人 人 的 半 的 SSCO2S 本 NSShGhlieF 
out1Liers.appendq(y) 


retutrn out1L iers 


(3 ) IQR 异 划 检 测 


四 分 位 点 内 距 (Inter-Quartile Range,，IQR ) ， 是 
指 在 第 75 个 百分点 与 第 25 个 百分点 的 差 值 ， 或 者 
说 ， 上 四 分 位 数 与 下 四 分 位 数 之 间 的 差 。 
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Outliers 


iers = 天 < (QI 一 1.5+rTJQR)orX > (3 十 1.5*JTQRR) 


IQR 是 统计 分 散 程度 的 一 个 度量 ， 分 散 程度 通过 需 
要 借助 箱 线 图 ( Box Plot ) 来 观察 。 通 常 把 小 于 
Qi1-1.5_IQR 或 者 大 于 Q3+1.5_IQR 的 数据 点 视 作 
离 群 点 。 


箱 线 图 可 以 直观 地 看 出 数据 集 的 以 下 重要 特性 : 


。 中 心 位 置 : 中 位 数 所 在 的 位 置 就 是 数据 集 的 中 
心 ， 从 中 心 位 置 向 上 或 向 下 看 ， 可 以 看 出 数据 
的 倾斜 程度 。 


散布 程度 : 箱 线 图 分 为 多 个 区 间 ， 区 间 较 短 
时 ， 表 示 落 在 该 区 间 的 点 较 集 中 ; 


对 称 性 : 如 果 中 位 数位 于 箱子 的 中 间 位 置 ， 那 
么 数据 分 布 较为 对 称 ; 如 果 极 值 离 中 位 数 的 距 
离 较 大 ， 那 么 表示 数据 分 布 倾斜 。 


。 离 群 点 : 离 群 点 分 布 在 箱 线 图 的 上 下 边缘 之 
2 


使 用 Python 实现 ， 参 数 sr 是 Series 类 型 的 变量 : 


aef aqQetect_out1liers(sr) : 
Gi 三 苹 S 天 下 UniEiLO 关 5 
可 汪 二 生 下 条 交 让 全 05 
idqr = 9q93-dq1 上 Interauartile range 
EECeealieNa 三 二 oo 交 人 下 


EECe 本 hi 得 三 三 o 有 二 | 人 


GUESTES 王 二 汪汪 全 全 生生 EECN 天 攻心 r > 和 


return out1L iers 


2.2 异 单 值 处 理 


在 数据 处 理 时 ， 蜡 党 值 的 处 理 方 法 ， 需 视 具 体 情 况 
而 定 。 有 时 ， 有 异常 值 也 可 能 是 正常 的 值 ， 只 不 过 异 
常 的 大 或 小 ， 所以， 很 多 情况 下 ， 要 先 分 析 异 常 值 
出 现 的 可 能 原因 ， 再 判断 如 何 处 理 异 常 值 。 处 理 的 
异常 值 的 党 用 方法 有 : 


。 删除 含有 异 冲 值 的 记录 。 

。 插 补 ， 把 异常 值 视 为 缺失 值 ， 使 用 缺失 值 的 处 
理 方法 进行 处 理 ， 好 处 是 利用 现 有 数据 对 异 音 
值 进行 蔡 换 ， 或 插 补 。 


。 不 处 理 ， 直接 在 含有 有 异 音 值 的 数据 集 上 进行 数 


据 分 析 。 


缺失 值 的 处 理 


不 是 所 有 的 数据 都 是 完整 的 ， 有 些 观测 值 可 能 会 缺 
失 。 对 于 缺失 值 ， 通 党 的 处 理 方式 是 删除 缺失 值 所 
在 的 数据 行 、 填 充 缺失 值 、 插 补缺 失 值 。 


缺 拓 值 的 处 理 
回回 目 回 品目 品目 日 品 
串口 目 口 占 口 加 日 口 - aewxareaet 


《 加 D re .十 郊 k 人 


3 目 - 播 补缺 闪 值 


忆 浊 量 | 向 舍 ShowMeAl 研究 中 心 | 


FT 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 

操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 


ShowMeAlI 相 天 文章 推 戎 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 


。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图解 效 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图 解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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解数 据 分 析 | 业务 分 析 与 数 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123132363 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:/www.showmeai.techyarticle- 
detail/139 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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效 据 分 析 分 核心 步骤 分 为 : 业务 认 知 与 数据 探 
索 、 数 据 预 处 理 、 业 务 认 知 与 数据 探索 等 三 个 
核心 步骤 。 本 文 介绍 第 三 个 步骤 一 一 业务 认 知 
与 数据 探索 。 


一 、 业 务 分 析 模 型 


| 
加 己 号 邹 外 本 
NEY |， AB 测 过 RFM9 析 ”区 。 呈 | 同期 群 分析 
国 snree 2 人 
吕 
册 。m 四 :mm 四 届 来 源 介 析 
@@e q 
山 和 山 杰 和 《人 ro 国 轩 sun 
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1.1 AB 测 试 


AB 测 试 ， 简 单 来 说 ， 就 是 为 同一 个 产品 目标 制定 两 
个 方案 (比如 两 个 页 面 一 个 用 红色 的 按钮 、 另 一 个 
用 蓝 色 的 按钮 ) ， 让 一 部 分 用 户 使 用 A 方 案 ， 另 一 
部 分 用 户 使 用 B 方 案 ， 然 后 通过 日 志 记 录用 户 的 使 


用 情况 ， 并 通过 结构 化 的 日 志 数 据 分 析 相 天 指 标 ， 
如 由 转化 率 等 ， 从 而 得 出 那个 方案 更 符合 预 
期 设计 目标 ， 并 最 终 将 全 部 流量 切换 至 符合 目标 的 
方案 。 


现状 介 析 /3 
业务 分 析 模型 _AB 测 这 2 


咀 据 介 析 思 维 


惠 |。 识 宇 目标/ 制定 方 案 
业务 分 析 看 罕 看 刘 | 而 罕 而 齐 下 攻 训 
与 - 50% 的 用 户 访问 A 组 。。 50% 的 用 户 访问 B 组 2 


| 
吧 
名 
下 
[2 
as 
晶 
靖 医 
进 


1.2 RFM 分 析 


RFM 模 型 是 衡量 客户 价值 和 客户 创利 能 力 的 重要 工 
具 和 手段 ， 是 最 流行 、 最 简单 、 最 有 效 的 客户 细 分 
方法 之 = 一。 


四 - 
全 维 业务 分 析 模 型 - RFM 分 析 5 Ra 
二 
ET | 
站 和 
询 ， * 国 国 图 区 本 
Cn 要 妆 | 往生 网 ] | 
他 http:Wwww.showmeaitech， 
。 Recency 最 近 一 次 消费 : 用 户 最 近 一 次 消费 距 


离 现在 的 时 间 。 例 如 ， 和 过 的 用 户 比 1 


年 前 消费 过 的 用 户 价值 大 。 


。 Frequency 消费 频率 : 用 户 在 统计 周期 内 购买 
商品 的 次 数 。 例 如 ， 购 买 频 率 高 的 用 户 价值 比 
偶尔 来 一 次 的 客户 价值 大 。 


。 Monetary 消 费 金 额 : 用 户 在 统计 周期 内 消费 的 
总 金额 。 例 如 ， 消 费 越 多 的 用 户 价值 越 大 。 


1.3 沁 斗 分 析 / AARRR 


漏斗 分 析 模 型 是 一 套 流 程式 分 析 模 型 ， 已 经 广 沁 应 
用 于 流量 监控 、 产 品目 标 转化 等 日 营 交 据 运 营 与 数 
据 分 析 中 ， 可 以 帮助 我 们 把 握 每 个 转化 万 氮 的 效 

率 ， 能 够 直观 的 发 现 问题 所 在 ， 从 而 优化 整个 业务 


流程 。 


业务 分 析 模型 - AARRR 人 四 索 | 微 信 
TD PV/7UV/CPC /点 击 转化 率 
人 |Acquisition 获取 。 注册 量 / 注册 率 / 获 窜 成 本 CAC 


ShowMeAi 研 究 中 心 | 


ivation 激活 。 痘 录 量 / 激活 转化 率 / 活跃 度 指 标 加 
ntion 留存 ”留存 率 / 复 购 率 / 人 均 购买 次 数 / 百 回 蒜 
evenue 营 收获 客 成 本 / 顾客 终身 价值 /营销 活动 Rol 。 记 


Referral 推荐 ”邀请 量 / 激活 量 / 邀请 激活 率 / 传播 系数 旧 


AARRR 是 一 个 产品 的 生命 增长 周期 ， 描 述 了 不 同 阶 
段 的 用 户 参 与 行为 的 深度 ， 即 : Acquisition (获取 


用 户 ) 、 Activation (激发 活跃 ) 、Retention ( 提 
高 留存 ) 、 Revenue (增加 收入 ) 、 Referral ( 传 
播 推荐 ) 。 它 能 通过 层 与 层 之 间 用 户 的 转化 数 ， 即 
转换 率 ， 来 定位 问题 出 在 哪 。 


1.4 同期 群 分 析 


同期 群 分 析 ， 是 通过 分 析 性 质 完 全 一 样 的 、 可 对 比 
群体 随时 间 的 变化 ， 来 分 析 哪 些 因素 影响 用 户 的 留 
存 。 只 用 简单 的 个 图 表 ， 就 直接 描述 了 用 户 在 一 段 
时 间 周 期 的 留存 或 流失 变化 情况 。 在 数据 运营 领域 
十 分 重要 ， 互 联网 运营 特别 需要 仔细 洞察 留存 情 
见 。 


业务 分 析 模型 - 同期 群 分 析 


1.5 对 比分 析 


对 比分 析 主 要 是 指 将 两 个 相互 联系 的 指标 数据 进行 
比较 ， 从 数量 上 展示 和 说 明 研 究 对 象 的 规模 大 小 ， 
水 平 高 低 ， 速 度 快慢 等 相对 数值 ， 通 过 相同 维度 下 


的 指标 对 比 ， 可 以 发 现 ， 找 出 业务 在 不 同 阶段 的 问 
题 。 常 见 的 对 比方 法 包括 时 间 对 比 ， 空 间 对 比 ， 标 
准 对 比 。 


(1) 时 间 对 比 
最 常用 的 就 是 同比 和 环比 ， 通 过 时 间 周 期 的 数据 对 
比 ， 了 解 目前 数据 水 平 的 高 低 。 
。 同比 : 对 比 上 一 个 周期 的 相同 时 段 做 比较 。 例 
如 ， 今 年 6 月 比 去 年 6 月 。 


。 环比 : 联系 两 个 时 长 相等 的 时 段 做 比较 例如 ， 
今年 6 月 比 去 年 5 月 。 


(2 ) 标准 对 比 


通过 目前 数据 与 设 定 的 目标 计划 之 间 的 对 比 ， 了 解 
目前 发 展 进程 ， 完 成 进度 等 ， 了 解 差 跑 后 可 以 及 时 
调整 策略 。 例 如 : 在 图 表 中 设置 目标 值 、 平 均值 、 
中 位 数 等 标准 ， 与 买 际 数据 形成 标准 对 比 ， 分 析 数 
据 情 况 。 


(3 ) 空间 对 比 
在 相同 时 间 范 围 内 与 不 同 空间 指标 数据 进行 对 比例 


如 : 各 省 份 订单 销售 数据 的 差别 对 比 ， 可 以 得 出 产 
品 的 优势 地 区 重点 突破 ， 平 衡 人 力 物 力 等 


1.6 来 源 分 析 


来 源 是 指 访问 我 们 网 站 的 用 户 是 如 何 到 达 我 们 的 网 
站 的 。 要 想 深 入 分 析 不 同 渠 道 、 不 同 阶段 效果 ， 可 
以 通过 SEM 付 费 搜 索 等 来 源 渠道 和 用 户 所 在 地 区 进 
行 交 叉 分 析 ， 得 出 不 同 区 域 的 获 客 详 细 信息 。 维 度 
越 细 ， 分 析 结 果 也 越 有 价值 ， 从 而 指导 网 站 的 优 
化 ， 最 终 达 到 提升 用 户 转化 率 的 目的 。 


ShowMeAl 研究 中 心 


(1) 多 层 钼 取 

务 每 层 数据 进行 点 套 ， 上 点击 不 同 维 度数 据 ， 进 行 细 
分 分 析 ， 通 过 多 层 钼 取 ， 直 接 在 图 表 中 点 击 查 看 细 
分 数据 ， 每 层 数据 均 可 选择 适合 的 图 表 类 型 进行 


一 


(2 ) 聚焦 下 钻 


对 于 数据 中 的 一 些 重 点 数据 ， 进 行 聚焦 分 析 ， 在 整 
体 分 析 中 ， 想 要 但 看 特别 关注 的 部 分 数据 详情 ， 可 
以 使 用 聚焦 及 下 钻 的 功能 ， 进 行 自由 分 析 。 


1.8 用 户 分 析 


常用 的 用 户 分 析 方 法 包括 : 活跃 分 析 ， 留 存 分析 ， 
用 户 分 群 ， 用 户 画 像 ， 用 户 细 得 等 。 


| 
业务 分 析 模型 - 用 户 分 析 常用 的 用 户 分 析 方法 
活路 分 析 人 


C 欠 留存 分 析 本 
性 地 和 9 
别 E “WP 用 户 分 寻 唱 
年 未 确 
业 局 用 户 画 像 
有 无 子女 用 户 细 查 
| 加 接 少 笠 售 ShowMeAl 研究 中 心 


以 “活跃 分 析 a 为 例 ， 可 以 将 用 户 活跃 细 分 为 浏览 
活跃 、 互 动 活跃 、 交 易 活 跃 等 ， 通 过 活跃 行为 的 细 


分 ， 营 握 关 键 行 为 指标 。 然 后 ， 通 过 用 户 行为 事件 
序列 ， 对 用 户 属性 进行 分 群 ， 观 察 分 群 用 户 的 访 
问 、 浏 览 、 注 册 、 互 动 、 交 易 等 行为 ， 从 而 真正 把 


握 不 同 用 户 类 型 的 特点 ， 提 供 有 针对 性 的 产品 和 服 
劳 5 


聚 类 分 析 是 将 数据 分 为 相对 同 质 的 群 组 的 分 析 方 
法 。 网 站 分 析 中 的 聚 类 主要 分 为 : 用 户 聚 类 、 页 面 
或 内 容 聚 类 或 来 源 聚 类 。 用 户 聚 类 主要 体现 为 用 户 
分 群 ， 用 户 标签 法 页 面 聚 类 则 主要 是 相似 、 相 天 页 
面 分 组 ， 来 源 聚 类 主要 包括 渠道 、 关 键 词 等 。 


用 户 聚 类 


业务 分 析 模型 - 聚 类 分 析 常用 的 聚 类 分 析 方法 
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二 、 效 据 控 掘 与 机 器 学 习 应 用 


逻辑 回归 / 朴素 风 叶 斯 
分 类 。 决策 树 / 随机 森林 

CU 寺 必 FEGrowip ] 
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无 监督 学 习 
票 类 。 k 均 值 村 


降 维 。 主 成 分 分 析 PCA 


O 逻辑 回归 
O 朴 系 贝 叶 斯 
O 决策 树 

O 随机 和 森林 
O 〇 K 近 邻 
支持 向 量 机 


C 


。 回归 


O 线性 回归 


O 主 成 分 分 析 PCA 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 
。 Pandas 速 查 表 


。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。Seaborn 官 方 教程 
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。 数据 分 析 介绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数 组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图 解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 
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轨 嫩 3 
午 \nw 局 Pandas 锚 seabor 
数据 分 


拓 


最 党 使 用 的 puthon 蔡 +a bleouv《 局 目 :es 
工具 如。 国有 | 


旧 
< 外 证 管 全 ShowMeAl 研 究 中 心 | 
里 


基于 数据 分 析 目 前 良好 的 发 展 前 景 ， 各 界 也 出 现 了 
许多 好 用 的 功能 种 类 丰富 的 数据 分 析 工 具 。 列 举 其 
中 的 一 些 (本 系列 教程 将 聚焦 于 Python， 讲 解 如 何 


使 用 Python 完成 全 链条 的 数据 分 析 过 程 ) : 


一 、Python 


官网 : https:/www.python.org/ 


tutorials/56 


BV1yg411c7ZNw 


速 查 表 : http:/showmeai.tech/article-detaiV98 
图 解 Python 教程 : http:/www.showmeai.techy/ 


B 站 视频 教程 : https/www.bilibili.com/videoy/ 


Python 是 一 个 高 层次 的 结合 了 解释 性 、 编 译 性 、 互 
动 性 和 面向 对 象 的 脚本 语言 ， 广 泛 应 用 于 IT 互联 网 
各 个 领域 ， 而 近年 的 大 数据 与 人 工 智 能 ， 机 器 学 习 / 


深度 学 习 ， 整 个 生态 最 活跃 支持 度 最 高 的 编程 语言 


也 是 Python。 


下 方 是 Python 速 查 表 主要 内 容 : 


变量 与 数据 类 型 
一 rr 


。 字符 串 


之 
全 
E 
七 
妹 
加 
上 


典 /列表 推导 了 式 


一 、SQL 


。 速 查 表 : http:/showmeai.tech/article-detaiV99 
。B 站 视频 教程 : https:Wwww.bilibili.com/videoy/ 
BV1Pu41117ku 


结构 化 查询 语言 (Structured Query Language ) 简 
称 SQL， 是 一 种 特殊 目的 的 编程 语言 ， 是 一 种 数据 


库 人 至 询 和 程序 设计 语言 ， 用 于 存 取 数 据 以 及 得 询 、 
更 新 和 管理 关系 数据 库 系 统 。 


结构 化 查询 语言 是 高 级 的 非 过 程 化 编程 语言 ， 允 许 
用 户 在 高 层 数据 结构 上 工作 。 它 不 要 求 用 户 指定 对 
效 据 的 存放 方法 ， 也 不 需要 用 户 了 解 具 体 的 数据 存 
放 方 式 ， 所 以 具有 完全 不 同 底层 结构 的 不 同 数据 库 
系统 ， 可 以 使 用 相同 的 结构 化 查询 语言 作为 数据 输 
入 与 管理 的 接口 。 结 构 化 查询 语言 语句 可 以 风 套 ， 

这 使 它 具 有 极 大 的 灵活 性 和 强大 的 功能 。 下 方 是 速 
查 表 主要 内 容 : 


。 其 本 查询 Basic Queries 

。 连接 join 

。 更 新 关联 接 查 询 join queries 
。 半 连接 semi join 

。 工具 函数 utility functions 

。 数据 修改 data modification 
。 索引 indexes 

。 报表 Reporting 

。 视图 view 


咱 
四 


。 官网 : https:Wwww.r-project.org/ 


R 非 党 适用 于 统计 和 数据 建 模 ， 快 捷 方 便 、 易 于 上 
手 。R 可 以 在 UNIX、Windows 和 Mac OS 等 各 种 平 
台 上 编译 和 运行 ， 还 提供 了 根据 用 户 要 求 自动 安 才 
所 有 软件 包 的 工具 。 下 方 是 效 据 分 析 间 用 R 库 : 


方向 R 库 
数据 处 理 lubridata ， 
dplyr， ply ， 
reshape2 ， 
String ， 
formatR , mcmc 
统计 方差 分 析 aov anova 
密度 分 析 density 
假设 检验 t.test ， 
prop.test ， 
anova ，aoVv 
线性 混合 模型 Ime 
机 器 学 习 Fnet ,rpart ， 
gbm，kernlab ， 
mboost ， 
randomForest ， 
tree，party ， 


lars ，boost ， 


e1071 ， 
BayesTree ， 
dafit ,arules 
聚 类 分 析 基于 划分 的 方法 kmeans ,pam ， 
Park ,clara 
基于 层次 的 方法 hclust ， 
pvVclust ， 


aognes , diana 
基于 模型 的 方法 _mclust 
基于 密度 的 方法 dbscan 
决策 树 rpart ，ctree 
随机 和 森林 forest ， 
randomForest 
回归 Logistic ， 
Poisson ,glm ， 


料 


predict ， 
residuals 


四 、EXxcel 


。B 站 视频 教程 : https:Wwww.bilibili.com/videoy/ 
BV1sQ4y1BZ71N 


。B 站 视频 教程 : https:Wwww.bilibili.com/videoy/ 
BV1uL411szbt 

。 B 站 视频 教程 : https:/www.bilibili.com/videoy/ 
BV1Jg411F7cS 


Microsoft Excel 是 数据 分 析 中 使 用 最 广泛 的 工具 之 
一 ， 音 用 明 数 、 数 据 透 钢 表 、VLookUp、 图 表 制 作 
等 功能 也 频繁 被 用 于 数据 的 预览 、 整 理 和 分 析 。 


五 、Tableau 


。 官网 : https:/www.tableau.corm/ 

。 B 站 视频 教程 : https:Wwww.bilibili.comvideoy/ 
BV1iq4y1PZ77U 

。B 站 视频 教程 : https:Wwww.bilibili.com/videoy/ 
BV1T341117q7 


Tableau 有 个 人 免费 版 本 ， 可 连接 到 任何 数据 源 
(例如 Excel、 公 司 数 据 仓 库 等 ) ， 然 后 通过 网 络 实 
时 更 新 创建 可 和 视 化 效果 、 地 图 、 仪 表 板 等。 


六 、Apache Spark 


。 官网 : https:W/spark.apache.org/ 


最 大 的 大 型 数据 处 理 引 擎 之 一 ， 该 工具 在 Hadoop 集 
群 中 执行 应 用 程序 的 内 存 速度 快 100 倍 ， 磁 盘 速度 
快 10 倍 ， 该 工具 在 数据 管道 和 机 器 学 习 模 型 开发 中 
也 很 流行 。 


七 、SAS 


。 官网 : https:W/www.sas.com/zh_cmhome.html 
SAS 是 用 于 数据 处 理 和 分 析 的 编程 语言 和 环境 ， 该 


工具 易于 访问 ， 并 且 可 以 分 析 来 自 不 同 来 源 的 数 
据 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 理 表 可 以 在 以 下 地 


址 下 载 获 取 : 


。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 
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。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 靖 洗 与 预 处 理 

。 业务 分 析 与 效 据 挖掘 

。 数据 分 析 工 具 地 图 

。 Numpy 与 1 维 数 组 操作 
。 Numpy 与 2 维 数组 操作 
。 Numpy 与 高 维 数组 操作 


。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 
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。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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一 、NumPy 介 绍 


统计 与 数 所 NumFy 2 


owMeAl 研究 中 心 ] 


数据 分 析 、 机 器 学 习 和 深度 学 习 领 域 ， 很 多 计算 过 
程 可 以 通过 向 量 和 答 阵 进行 并 行 化 的 高 效 处 理 ， 而 
NumPy 可 以 很 好 地 支撑 向 量化 运算 。NumPy 包 是 
Python 生态 系统 中 科学 计算 的 核心 支撑 之 一 ， 数 据 
分 析 工 具 库 pandas， 计 算 机 视觉 工具 库 OpenCyV 等 
库 都 基于 NumPy。 熟悉 NumPy 之 后 ， 知 名 的 深度 学 
习 框 架 PyTorch、TensorFlow、Keras 等 ， 也 可 以 直 
接 迁 移 应 用 处 理 的 方式 ， 很 多 操作 甚至 无 需 更 改 就 
可 以 在 GPU 运行 计算 。 


n 维 数组 是 NumPy 的 核心 概念 ， 大 部 分 数据 的 操作 
都 是 基于 n 维 数组 完成 的 。 本 系列 内 容 柳 盖 到 1 维 效 
组 操作 、2 维 数组 操作 、3 维 数组 操作 方法 ， 本 篇 为 
系列 导入 文章 。 


二 、NumPy 数 组 


2.1 多 表 VS 数组 


n 维 数组 是 NumPy 中 最 核心 的 结构 之 一 。 数 组 与 
站 : 都 用 来 妆 载 数据 ， 都 能 够 快 
速 添 加 或 获取 元 素 ， 插 入 和 移 除 元 系 则 比较 慢 。 


但 NumPy 数 组 因 其 广播 特性 可 以 直接 进行 算 木 运 
算 ， 而 Python 列表 则 需要 用 列表 推导 式 等 操作 来 完 
成 。 对 比 示例 如 下 左 侧 为 列表 ， 右 侧 为 NumPy 数 
组 ) : 


SS 列表 VS 数组 


统计 与 数据 站: 作 全 本 
out[3]: [2，4，6] out[4]， array([2，4，6]) 
科学 计算 库 
Numpy 


六 风 半 必 全 下 


乌 刘 oo 


() 接 索 | 微 信 ShowMeAl 研究 中 心 


httpy/wwwshowmeaitech 


2.2 Numpy 效 组 其 他 特点 
。 更 紧凑 ， 高 维 时 尤为 明显 
。 向 量化 后 运算 速度 比 列 表 更 快 


。 在 末尾 添加 元 素 时 不 如 列表 高 效 〈( 左 侧 为 列 
表 ， 右 侧 为 NumPy 数 组 ) 


。 元 素 类 型 一 般 比 较 固 定 


| 
python list vs numpy array 也 
RS 
其 
人 | 避 
芍 
专 
统计 与 数据 
人 append() at append() 恒 
科学 计算 库 5 王国 国 | 芝 攻 汪 
区 、 闪 沈 轩 贞 橱 
Num 了 展 四 二 
Py 后 二 加 明 访 司 辣 辐 胃 
2 人 和 ee 司 
ETIOODECTETC 
meaitech/ 


其 中 ，O(N) 表 示 完 成 操作 所 需 的 时 间 与 数组 大 小 成 
正比 (请 见 Big-O Cheat Sheet ) ，O(1) 表 示 操 作 时 
间 与 数组 大 小 无 关 〈 详 见 Time Complexity ) 。 


欣 料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。Pandas 速 查 表 
。 Matplotlib 速 查 表 


。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 
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。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 


。Pandas 数 据 分 组 与 操作 
。 数据 可 视 化 原则 与 方法 
。 基于 Pandas 的 数据 可 视 化 
。 Seaborn 工 具 与 数据 可 视 化 
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。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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article/details/123133644 
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人 httpywwwshowmeaitech/ 


n 维 数组 是 NumPy 的 核心 概念 ， 大 部 分 数据 的 
操作 都 是 基于 n 维 数组 完成 的 。 本 系列 内 容 履 
盖 到 1 维 数 组 操作 、2 维 数组 操作 、3 维 数组 操 
作 方 法 ， 本 篇 讲解 Numpy 与 1 维 数组 操作 。 


回 量 初 始 化 


可 以 通过 Python 列表 创建 NumPy 数 组 。 


通过 Python 列表 创建 NumPy 数 组 = 
| 
Un .esin 史 量 国 国 :六 Re 
一 维 数 组 4 
b = np.zeros(3，int) 吵 8 攻 ,dype == np,int32 磺 

向 量 初始 化 


C 
.dtype == np.float64 
ec = np.zeros_like(a) 路 6) 


| 名 己 索 | 微 信 ShowMeAl 研究 中 心 
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如 图 中 (a ) ， 将 列表 元 素 转化 为 一 维 数 组 。 注 意 
这 里 一 般 会 确保 列表 元 素 类 型 相同 ， 否 则 轩 

认 atype='object' 会 影响 后 续 运 云 算 ， 甚至 产生 语 
法 销 误 。 


由 于 在 数组 末尾 没有 预 留 空间 以 快速 添加 新 元 系 ， 


NumPy 数 组 无 法 像 Python 列 表 那 样 增长 。 因 此 ， 通 
常 的 处 理 方式 包括 : 


。 在 变 长 Python 列表 中 准备 好 数据 ， 然 后 将 其 转 
换 为 NumPy 数 组 

。 使 用 np .zeros 或 npP .empPty 预先 分 配 必要 的 
空间 (图 中 b ) 


通过 图 中 〈c ) 方法 ， 可 以 创建 一 个 与 系 一 变量 形状 
一 致 的 空 数组 。 


不 止 是 空 数组 ， 通 过 上 述 方法 还 可 以 将 数组 填充 为 
特定 值 : 


翌 

(1 2 3 1 
通过 Python 列表 创建 Numpy 数 组 中 “ 国 = 
人 
Numpy np.zeros(3) 吊 全 | 三 np,zeros_like(a) 吵 88|8| 
S 
一 维 数组 ER 路 | np.ones_like(a) 哮 汪 区 可 | 记 上 

向 量 初始 化 WE 趾 np-enpty_likeCa) 攻 

1 ) 
中 


在 NumPy 中 ， 还 可 以 通过 里 调 序列 初始 化 效 组 : 


Numpy 


/ 上 
.ai rt，stop，step w np.arange(2，6 

一 维 数组 Ce 

np.arange(1，6，2) 喝 二 | 芋 


将 数组 填充 为 特定 值 。 .et 


路 司 辐 | 国 攻 有 | 5 


多 有 pw 用 年 e 生生 


向 量 初 始 化 


peelenrt sp nm 一 mlinpet 05 9 上 于 .16.a 8.3 8.4 0.5 


(楼 索 | 微 信 ShowMeAl 研究 中 心 
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如 果 我 们 需要 浮 点 数组 ， 可 以 使 


用 arande (3) .astype (float) 这 样 的 操作 更 改 
arange 输 出 的 类 型 ， 也 可 以 在 参数 端 使 用 浮 点 数 ， 
比如 arange(4.) 来 生产 浮 点 数 Numpy 数 组 。 

以 下 是 arange 浮 点 类 型 数据 可 能 出 现 的 一 些 问题 及 
解决 方案 : 


start stop step 
normi: np-arange(9.4，9.38，6.1) 呈 6.4 0.5 0.6 9.7 
En=w 


通过 音 庙 5 
Numpy ,anomaly: np-arange(6.5，6.3，6.1) 趾 6.5 0.6 6.7 6.8 初 内 化 数组 二 


一 维 数 组 “solution1: np.arange(96.5，8.75，6.1)7 喝 9.5 6.6 8.7 | 


加 

-| 
atart stop nam -一 一: 而 
solution2: 。 np.linspace(8.5，9.7，3) 8.5 6.6 6.7 


向 量 初始 化 


,gotcha: np.linspace(e，1，?) 1 村 9. 6.1 6.2 9.3 后 区 区 
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图 中 ，0.1 对 我 们 来 说 是 一 个 有 限 的 十 进 制 数 ， 但 对 
计算 机 而 言 ， 它 是 一 个 二 进 制 无 穷 小 数 ， 必 须 四 舍 
五 入 为 一 个 近似 值 。 因 此 ， 将 小 数 作 为 arange 的 步 
长 可 能 导致 一 些 错误 。 可 以 通过 以 下 两 种 方式 避免 
如 上 错误 : 


。 使 间隔 末尾 落 入 非 
性 和 可 维护 性 ; 


。 使 用 linspace， 这 样 可 以 避免 四 舍 五 入 的 和 


影响 ， 并 始终 生成 要 求 数 量 的 元 素 。 


O 使 用 linspace 时 尤其 需要 


效 量 星 仑 


整数 步 数 ， 但 这 会 降低 可 读 


一 | 


日 天 


需要 注意 最 后 一 个 的 


参数 设置 ， 由 于 它 计 算 点 数量 ， 而 不 


是 间隔 数量 ， 因 此 上 图 中 数量 参数 是 11 ， 


而 不 是 10。 


随机 数组 的 生成 方法 如 下 : 


随机 数组 的 生成 方法 
N 六 Carefull 
UmPy andon.randint(9，19 “5 哆 攻 加 区 司 志 mp-randon,randint(e, 16)i[0, 10) but | 三 
random.randint(g，19) is [0, 10] | 酸 : 
、 二 
一 维 数 组 
5 嘎 | mprandon randnG) 听 加 本 区 本 
[ normal, h=8，o=1 
忌 
向 量 初始 化 
ndon_un 放 f ) 荐 园 辆 | don .normal(5， 2 加 因 思 
要 和 he5，o=2 
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、 回 量 系 5| 


NumPy 可 以 使 用 非常 直接 的 方式 对 数组 数据 
问 : 


进行 访 


使 用 直接 的 方式 访问 数组 数据 
umpy 


[1] [2:4] [-2:] 
维 数组 六 站 于 
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图 中 ， 除 fancy indexing” 外 ， 其 他 所 有 索引 方法 本 
质 上 都 是 views : 它们 并 不 存储 数据 ， 如 果 原 数组 在 
被 索引 后 发 生 更 改 ， 则 会 反映 出 原始 数组 中 的 更 
改 。 


上 述 所 有 这 些 方法 都 可 以 改变 原始 数组 ， 即 允许 通 
过 分 配 新 值 改 变 原 数 组 的 内 容 。 这 导致 无 法 通过 切 
片 来 复制 数组 。 如 下 是 python 列 表 和 NumPy 数 组 的 
对 比 : 


四 
umpy 2 
一 维 数组 
当 三 到 区 有 天 a = np.array([1，2，3]) 和 
b =a 形 nO Copy b = a 杂 MO Copy 秦 
<c=a[:] 杂 copy c=a[:] 大 no copy111 
旺 d = a.copy() 交 copy d = a.copy() ## col 
向 量 索引 0 py 
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NumPy 数 组 支持 通过 布尔 索引 获取 数据 ， 结 合 各 种 
逻辑 运算 符 可 以 有 很 高 级 的 数据 选择 方式 ， 这 在 
Python 列表 中 是 不 具备 的 : 


下 
忆 1 3 才 5 6 | 从 6 5 才 县 | 1 人 
忆 
， 间 
U 引 > 5 |FalselFalse False False False True | True | True |False False|False False False 可 
mPy E 


np.any(a > 5) ara > 5] np.all(a > 5) 人 

T 本 

一 维 数组 True 调 攻 胡 上 嘎 : False 上 
ea 汤 

ara > 5] = 9 人 


-于 司 1 达 沪 才 感 9 8 8 上 帮 区 避 攻 | ~ 
避 旦 | 短 人 
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注意 ， 不 可 以 使 用 3 <= a <= 5 这 样 的 Python 三 
元 "比较 。 


如 上 所 述 7 布尔 索引 是 可 与 的 。 如 下 图 npP .where 
和 三 放 , 翁 上 诗 旋 两 个 专 有 图 数 。 


机 浊 况 攻 疏 国人 
| 1 | 


和 
| 

旺 1 了 3 年 ] 五 了 8 登 19 11 2 吧 

umpy np.where(a > 5) 加 

区 而 攻 。 5 癌 

sy p-nanzeroCa > 5) 罗 

维 数组 3 

呈 

[a<5]=9iara>=-5]=1 确 


. 医 汪汪 洒 

向 量 索引 herele or 5 1 | 
届 避 和 
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ara< 3] = 3; aca > 5] = 5 
悍 3 3 3 玫 生 3 3 3 从 


> httpxWwww showmeaitech = np.clip(3，3，5) 


三 、 辐 量 操作 


NumPy 支 持 快速 计算 ， 向 量 运 算 操 作 接 近 C++ 速 度 
级 别 ， 并 不 受 Python 循 环 本 身 计 算 慢 的 限制 。 
NumPy 人 允许 像 普 通 数 子 一 样 操作 整个 数组 : 


umpy 


一 维 数组 
向 量 操 作 
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作 昌 他 全 下 


ai | 


靖国 77 
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Sn 证 


在 python 中 
未 xn 


7 


ab 表示 a div b (除法 的 商 ) 


**m 表 


浮 点 数 的 计算 也 是 如 此 ，NumPy 能 够 将 标量 广播 到 


数组 : 


umpy 


一 维 数组 
向 量 哥 作 
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Numpy 提 供 了 许多 数学 函 


数 来 处 理 矢量 : 


umpy 


一 维 数组 
向 量 哥 作 
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Q 2 3 wk 了 


ja 
本 
四 外 
二 
可 
、 
lna 本 np.log( pe mpien2 ) = 机 
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ea = np.exp( 有 2 荣 


向 量 点 乘 (内 积 ) 和 又 乘 ( 外 积 、 向 量 积 ) 如 下 : 


5 站 
UmIPY 五 二 = np-dot( 1 12 1， 贺 贺 ， 己 

一 维 数组 - ” 国 可 , 国 呈 -图 2 
只 


向 量 操作 。 :7 - wwe . 国 国 辐 ，- 国 国 国 
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NumPy 也 提供 了 如 下 三 角子 数 运算 : 


恒 

np.sin(C | np.pi jnp.pi/2 ) = [| 放 

mm 

umpy 2 

np.arcsin( 古河 丽 避 [ 二 9. 1.57 和 

一 维 数组 ES 
sin | arcsin | sinh | arcsin 

压 


品 tan arctan fanl arctal 
向 量 哥 作 
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hs5pea 


自 
朋 和 ee 全 下 


uUmPy np.floor( 1.1 1515， 三 | 加 
全数 得 < 加 本 国生 ，. 国 国 国 国 
向 量 哥 作 wei 司 国 国 , -| 国 国 国 
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多 用 orww 


floor 向 上 取 整 ，ceil 向 下 取 整 ，round 四 舍 五 入 


Ar 
人 


npP.arounad 与 npP.round 是 等 效 的 有 这 样 做 只 是 为 


了 避免 from numpy import * 时 

与 Python around 的 冲突 (但 一 般 的 使 用 方式 是 
import numpy as np ) 。 当 然 ， 你 也 可 以 使 用 
a.round()。 


NumPy 还 可 以 实现 以 下 功能 : 


np-max( | 了 
umpy 


一 维 数组 了 国 辆 .… = 1 E 园 国 .…… = 9 
本 
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-argmax() = | 2 


用 昌 e 所 下 


向 量 操 作 


和 有 ww 


人 RS httpywww.showmeaitech/ 


以 上 功能 都 存在 相应 的 nan-resistant 变 体 : 例 


如 nansum 7 nanmax 等 


在 NumPy 中 ， 排 序 细 数 功能 有 所 阅 割 : 


加 纪 
ni 
umpy 有 
辆 : 
窑 
ee 后 
维 数组 a.sort() a.sort() sorts in-place 本 
国生 
sorted(a) np.sort(a) returns new sorted array 厂 

a.-sort(key=f) 去 key function 

旦 4 呈 
口 量 操作 a.sort(reversed=False) - ascendingldescending 
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对 于 一 维 数组 ， 可 以 通过 反 转 结果 来 解决 reversed 
函数 缺失 的 不 足 ， 但 在 2 维 数组 中 该 问题 变 得 棘手 。 


四 、 至 找 回 量 中 的 元 对 


NumPy 效 组 并 没有 Python 列表 中 的 勾引 方法 ， 和 去 引 
效 据 的 对 比如 下 : 


ma 
全 三 
es 因 
umPy hon Ustas 三 


一 维 数组 a.index(x[，i[，3j]]) 着 First occurrence of x 说 0 between indices i and 了 度 
2 
Numpy Ai s: 


查找 向 量 中 


字 http:Wwww.showmeaitechy/ 


的 元 素 
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index() 中 的 方 括号 表示 j 或 ig&j 可 以 省 略 


斤 
愉 


。 可 以 通过 np.where(a==x) [0] [0] 查 找 元 素 ， 


但 这 种 方法 很 不 pythonic ， 检疫 宪 拓 的 
在 数组 开头 ， 该 方法 也 需要 通 历 整个 数组 。 


。 使 用 Numba 实 现 加 速 查 


找 ， next ((I[0] for 1 VvV in np.ndenumerate (a) 1 


在 最 坏 的 情况 下 ， 它 的 速度 要 比 where 慢 。 


。 如 果 数 组 是 排 好 序 的 ， 使 


用 ~ = np.searchsorted(a， X); return vV 1If a[7]= 


间 复 杂 度 为 o(1og NM) ， 但 在 这 之 前 ， 排 序 的 时 
间 复 和 杂 度 为 O(N log N)。 


际 上 ， 通 过 C 实 现 加 速 搜索 并 不 是 困难 ， 问 题 是 


和 点 数据 比较 。 


五 、 序 点 效 比 较 


np.allclose(a，b) 用 于 容忍 误差 之 内 的 浮 点 数 比 
较 。 


Numpy 6@.1+6.2== 6.3 np.allclose(e.1 + 6.2，8.3) math.isclose(e-1 + 6.2，8 
d True True 
维 数组 1e-9 -= 2e-9 np.allclose(le-9，2e-9) math.isclose(1e-9，2e-9) 有 一 | 


False True 咱 False 


浮 点 数 比 较 6.1+8.2-9.3 -= 8 np.allclose(e-1+6.2-9.3，6) math.isclose(6.1+6.2-6.3，6) 


Falee 人 False 1 
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。np.allclose 假 定 所 有 比较 数字 的 尺度 为 1。 如 
果 在 纳 秒 级 别 上 ， 则 需要 将 默认 atol 参 数 除 以 
1e9 : np.allclose(le-9,2e-9，atol=1le-17)==Eals: 
。math.isclose 不 对 要 比较 的 数字 做 任何 假设 ， 
而 是 需要 用 户 提供 一 个 合理 的 abs _tol 值 
Cnp.allclose 默 认 的 atol 值 1e-8 足 以 满足 小 数 
位 数 为 1 的 浮 点 数 比较 


即 math .IsSclose(0.1+0.2-0.3，abs tol=1e-8) == 了 TEL 


此 外 ， 对 于 绝 队 偏差 和 相对 偏差 ，np.allclose 依 然 
存在 一 些 问题 。 例 如 ， 对 于 某 些 值 a、b ， 


allclose(a,b)!l=allclose(b,a)， 而 在 math.isclose 中 


则 不 存在 这 些 问 题 。 查 看 GitHub 上 的 浮 点 数据 指南 
和 相应 的 NumPy 问 题 了 解 更 多 信息 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 

。NumPy 速 查 表 

。 Pandas 速 查 表 


。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。NumPy 教 程 
。 Python NumPy 教 程 
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。 数据 分 析 介绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数 组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图 解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 
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。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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Python 数据 分 析 | Numpy 与 
2 维 数组 操作 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123134658 
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ES 
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统计 与 数据 NumPy 人 站 


n 维 数组 是 NumPy 的 核心 ,大 部 分 数据 的 
操作 都 是 基于 n 维 数组 完成 的 ， 本 系列 内 容 履 
盖 到 1 维 数组 操作 、2 维 数组 操作 、3 维 数组 操 
作 方 法 ， 本 篇 讲解 Numpy 与 2 维 数组 操作 。 


回 量 初 始 化 


NumPy 中 曾 有 一 个 专用 的 matrix 类 来 代表 短 阵 ， 后 
来 被 弃 用 ， 现 在 NumPy 中 的 答 阵 和 2 维 数组 表示 同 
一 含义 。 

(1 ) 答 阵 初始 化 

乱 阵 初始 化 的 语法 与 向 量 是 类 似 的 : 


蛋 


加 a = np.array([[1，2，3]， 哆 1 2 3 | .dtype -= np,inta2 忆 
Er [4，5，6]]) | .:hape -- (2，3) 加 
Numpy 


二 维 数组 


len(a) == a.shape[6] 


2 
一 一 一 


] 3 
8.| 8. | 
| 蒜 吧 | 吵 ES | | 
np.zeros((3， 2 嘎 : 89.| np.full(G3，2)，7) | 右 | 相 | 的 声 


6.| 8 避 吧 


| 9-| 四 
区 加 加 
BE [| = np-eye(3) 
mp-ones((3，2)) | 1. np-empty((3，2)) | | 
| | 二 | 
区 加 | 


如 上 要 使 用 双 括号 ， 这 里 的 (3,2) 是 第 1 个 参数 表示 
答 阵 维度 ， 第 2 个 位 置 参数 ( 可 选 ) 是 为 dtype (也 
接受 整数 ) 保留 的 。 

(2 ) 随机 答 阵 生成 

随机 和 矩阵 的 生成 也 与 向 量 类 似 : 


下 
到 
重 
吕 9 

全 ce 入 下 


而 
EEEA 际 


引言 
且 
己 
且 
人 


3.65 8.7 8.7 12.3 
Ip.random uniformC1，19，[3, 斩 3.8| 2.6 mp-randon-normalt16，2，[3，23) 和 | 10.5 16.8 
Unierm %e 和 :40 6.9 9.4 nal, h=19，o=2 14300.2 
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(3 ) 二 维 数组 索引 
二 维 数 组 的 索引 


语法 要 比 衣 套 列表 更 方便 : 


ET af[1,:] [:,2] ja 
四 1 加 加 回回 吧 
6 6 辐 几 | 2 总 
Numpy a 回回 回回 日 回 暂 加 四 问 区 
= ar1] 
-eg 国生 -CS 
ai 3] 
5 


E 刘 区 涪 区 克服 2 
: 回 " 国 
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view" 表 示 数 组 切片 时 并 未 进行 任何 复制 ， 在 修改 
数组 后 ， 相 应 更 改 也 将 反映 在 切片 中 。 


二 、 轴 参 效 


在 很 多 和 矩阵 运算 操作 中 ，NumPy 可 以 实现 跨行 或 跨 
列 的 操作 。 为 了 适用 任意 维 数 的 数组 ，NumPy 引 入 
了 axis 的 概念 。 

axis 参 数 的 值 实际 上 就 是 维度 值 ， 如 第 一 个 维 

是 axis=0 ， 第 二 维 是 axis=1，, 依 此 类 推 。 因 此 ， 在 
2 维 数组 中 ，axis=0 指 列 方向 ，axis=1 指 行 方向 。 


TIE 

嗓 

吵 医 

曼 

9) 虽 司 豆 | 可 盎 
CQ 要 索 | 微 信 
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喝 有 研究 中 心 


三 、 算 阵 运 算 


除了 +，-，_，/, /和 ”等 数组 元 素 的 运算 符 外 ， 


NumPy 提 供 了 @ 运算 符 计 算 德 阵 乘 积 : 


1 
川 5 2 8 贺 图 厅 
条 医 1|68 本 | 3 14 2 区 可 名 
二 站 基 注 SEE 
可可 回回 国 四 司 司 加 回国 四 上 
ass ”本 多 
襄 帮 1|。 回回 避 民 到 四 回 站 
本 相 - 辐 可 - 加 四 = 
] 可 加 同 加 医 回 闷 

目 熙 2 图 图 

于 诈 运 列 是 末了 

可 可 国 回国 国 过 | 向 舍 ShowMeAl 研 究 中 心 | 


类 似 一 维 向 量 中 的 广播 机 制 ，NumPy 同 样 可 以 通过 
广播 机 制 实现 向 量 与 矩阵 ， 或 两 个 向 量 之 间 的 混合 
运算 ， 如 下 图 所 示 : 


JR 
Rs 四 
可 [国医 医 呈 区 区 | 
Numpy 隐 量 / 4| 37 normalization 5 
9 攻 汪 2 可 
二 维 数组 国 辆 呈 加 国 中 
一 志 | 
砚 
[ 辆 贺 攻 -48 -1 6 
ee | multiplying several 
矩阵 运算 5 3 。 “ columns at once 
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f 
Num 国 贡 加 让 
Py 加 IE / 区 一 RE 
二 维 数组 | 0 9 员 玖 下 normalization 上 
确 
矩阵 运算 二 本 间 区 7 outer product 
3 3 


| 人 接 索 | 微 信 ShowMeAl 研究 中 心 


注意 ， 上 图 最 后 一 个 示例 是 对 称 的 逐 元 素 乘 法 。 使 
用 答 阵 乘法 @ 可 以 计算 非 对 称 线性 代数 外 积 ， 两 个 
答 阵 互 换 位 置 后 计算 内 积 : 


3 
No 省 
N Un 1 2 旬 
Py @ 1 训 苞 划 医 : = 区 于 有 下 outer prod 中 
二 维 数组 8 
大 

1 

和 党 训 诬 ; Q@ 2 到 14 inner (or dot) product 
矩阵 运算 
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四 、 行 同 量 与 询 同 量 


在 NumPy 的 2 维 数组 中 ， 行 向 量 和 人 列 向 量 是 被 区 别 
对 待 的 。 通 带 NumPy 会 尽 可 能 使 用 单一 类 型 的 1 维 
数组 (例如 ，2 维 数组 a 的 第 j 列 a[:, j] 是 1 维 数组 ) 。 
默认 情况 下 ， 一 维 数组 在 2 维 操作 中 被 视 为 行 向 量 ， 
因此 ， 将 和 矩阵 乘 行 向 量 时 ， 使 用 形状 (n,) 或 (1,m) 的 向 
量 结果 一 致 。 有 多 种 方法 可 以 从 一 维 数组 中 得 到 列 
向 量 ， 但 并 不 包括 transpose : 


恒 轴 
YUmPY 回回 昌 哮 aii 
二 维 数组 《2，3) 


b 
行 向 量 与 大同 羡 | b b 
人 GE 中 
列 向 量 
汪 
1 当 | 电 
| 
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使 用 reshape 操 作 添加 新 的 axis 可 以 更 新 数组 形状 和 
索引 ， 也 可 以 将 1 维 数组 转化 为 2 维 列 向 量 : 


悍 areshapeC1,-1) | 
CD [一 一 六 二 一 | 呆 
< 11213|4|15|5|(6) 虽 国 国 辐 加 国 国 -,o， 号 
umpy Er 站 
一 维 数组 县 
areshape(-1,1) 人 二 
吕 areshape(2,3) 唤 
行 向 量 与 国 . ， 
2,3 
向 量 国 c 4 |。 
列 向 量 = areshape(2,-1) 
L 和 居 索 | 徽 信 ShowMeAl 研究 中 心 
= a[:，None] 
CS httpywwwwshowmeaitechy 
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其 中 ，-1 表 示 在 reshape 是 该 维度 自动 决定 ， 方 括号 
中 的 None 等 同 于 np.newaxis， 表 示 在 指定 位 置 添加 
一 个 空 轴 。 

总 结 一 下 ,NumPy 中 共有 三 种 类 型 的 向 量 : 1 维 数 
组 ，2 维 行 向 量 和 2 维 列 向 量 。 以 下 是 两 两 类 型 转换 


全 2 33 了 
= 
妨 
| 
SCI1， 了 ) 四 
行 向 量 上 3 
四 
列 向 量 


np-array([[1]，[2]，[3]]7 
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根据 广播 规则 ， 一 维 数 组 被 隐 式 解释 为 二 维 行 向 
量 ， 因 此 通常 不 必 在 这 两 个 数组 之 间 进 行 转换 ， 对 
应 图 中 阴影 化 区 域 。 

严格 来 说 ， 除 一 维 外 的 所 有 数组 的 大 小 都 是 一 个 向 
量 (如 a.shape == [1,1,1,5,1,1] ) ， 因 此 NumPy 的 
输入 类 型 是 任意 的 ， 但 上 述 三 种 最 为 常用 。 可 以 使 
用 np.reshape 将 一 维 矢量 转换 为 这 种 形式 ， 使 用 
np.squeeze 可 将 其 恢复 。 这 两 个 功能 都 通过 view 发 
挥 作 用 。 


五 、 筷 阵 操作 


答 阵 的 拼接 有 以 下 两 种 方式 : 


np.hstack((a，c)) 
回 1 1 


| 

表 

4 回回 回回 回回 回回 3 

于 | 全 | 了 | 8 可 辐 | 用 sj|s|7|a alal 

Numnpy 相 ja 本 国 加 了 加 面 加 器 回 占 全 

二 维 数组 

0 加 r 吉 攻 -2 疡 

让 ET 

时 1 区 轴 放 ， 

矩阵 操作 男 遂 酌 加 
9 


图 示 操 作 仪 适用 于 答 阵 堆 妓 或 向 量 堆 坡 ， 而 一 维 数 
组 和 算 阵 的 混合 堆 王 只 有 通过 vstack 才 可 实现 ， 
hstack 会 导致 维度 不 匹配 错误 。 因 为 前 文 提 到 将 一 
维 数组 作为 行 向 量 ， 而 不 是 列 向 量 。 为 此 ， 可 以 将 
其 转换 为 行 向 量 ， 或 使 用 专门 的 column_stack 浮 数 
执行 此 操作 : 


世 ) -加 国 <5:， None])) 呈 | 
加 本 旨 二 本 色 
Numpy e) 喝 国富 可 

9 ne 攻 多 
二 维 数组 = np.column_stack((a，c)) 电 
Ce | 
砚 
np.vstack((a，b)) 

矩阵 棵 作 和 证 攻 展 训 民 

| 人 搜索 | 微 信 
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(， 研究 中 心 

他 http:Wwww.showmeaitech/ 


与 Stack 对 应 的 是 splt， 可 以 对 答 阵 进行 切 分 处 理 : 


司 np.hstack((a，c)) y 
加 加 国医 ICON 回回 图 圆 二 二 
| 司 加 | 局 | 国医 贺 回 加 回 : j 
< 2 1。 tlmltzls 


Numpy 医 19 1 |112 加 区 | | 5 
np.hsplitCy，[4]) 
二 维 数组 回回 图 加 | 
局 5 sa 一 
， np.vstack((a, b)) [ll 

矩阵 操作 WO 站 一 
本 四 上 内 忌 条 | 向 信 
一 np.vsplLit(x，[3]) 1 ShowMeAl 
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答 阵 复制 有 两 种 方式 : 


。tile 类 似 粘 贴 复 制 ; 
。repeat 相 当 于 分 页 打印 。 


四 np.Tile(a， 《2， ，3)7 


Numpy 
二 维 数 组 


矩阵 操作 。 


二 全 | 
| | 


mm 

.repeat(2，axis=9) 呈 

5 | 性 1 

2 | 本 


@ 覃 康 | 生僻 


1 
吊 一 
二 四 直 


四 ShowMeAl 
研究 中 心 史 
CS httpwwwwshowmeaitech/ 
\ 企 片 十 = Z 三 。 
delete 可 以 删除 特定 的 行 或 列 : 
本 
和 二 站、 国 站 二 | np.delete(a，[1，3]，axis=D) | | 
ns 6|7|slolve 果 辣 和 呈 王 | 


IE ] 
|13| 


大 1 14|15 1 13 15 
Numpy 加 za ; 


二 维 数组 和 洒 医 本 区 重 攻 5 1 5 贺 贺 
一 TREE " 四 E 
员 国 回国 本 二 IE 而 困 

矩阵 棵 作 量 m.deletec， 1，axis=6) np.delete(a，np.s_[1:-1]，axis=1) 


| 112|3|4|5 = np- delete(a， slice(1,-1)，axis=1) 
加 本 四 四 四 L 禄 豪 | 向 信 ShowMeAl 研究 中 心 ] 
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FT 


相应 插入 操作 为 insert : 


np.insert(v，1，7，axis=6) np.insert(h，[1，2]，68，axis=17 [| 
ee 本 网 证 加 ， < 
N 芝 | 6|8 18 辐 
umpy 8 
二 维 数组 ”上 
ae 向 虽 
硕 
1) 中 册 

矩阵 操作 襄 攻 

| 6 | 19 

ialalws 加 三 
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与 hstack 一 样 ，append 函 数 无 法 自动 转 置 1D 数 组 ， 
因此 需要 重新 调整 向 量 形状 或 添加 维 数 ， 或 者 使 用 


column_stack : 


网 


np.append(a，np.zeros(3,2)，axis=1) 

四 | ET TS Te 
国医 3|14|5 守 回回 EE 上 员 恬 回民 
| | 国 w 

吊 5 


Numpy 四 回回 加 区 虽 7jsjs| 国 sjie 网 忆 
Tiz|alt4|n 1 0114 5 malaln 四 上 

| | 国 国产 

二 维 数 组 者 中 appende， np.ones(5)，axis=6) np.column_stack(a， Cs 


矩阵 操作 


吃 


large arrays, Consider python list$ ”ShowMeAl 
or preallocation. 研究 中 心 ， 


下 ON): works slowly for 搜索 | 微 信 


如 果 仅 仅 是 向 数组 的 边界 添加 单 量 值 ， pad 兄 | 效 是 
足够 的 : 


日 np. Ed ((8， 有 《9,277) 
CD 1 : 4 叶 ] 11:| :14[5 加 加 二 
一 4 
hewrew | | 外 
5|7|8|19 到 吓 5|7|8|9|1o 民 lm 思 
Numpy 2 14115 11112 113114|15 司 员 芭 代 
二 | 马 
二 维 数 组 “各 
np.pad(a，《〈(6,1)，(6,9))， 和 硕 
constant_values=1) [ee[elelelele 
uc ] 于 
矩阵 操作 1|2|s|4|15 贺 ,|:|:|4|s 加 
| | | 十 搜索 | 微 
15 78 加 |7|* 9。|1 匠 ShowMeAl 
11112113114115 611112|113 114115 避 (研究 中 心 
本 | elje|le|elje|ej|e 


六 、Meshgrids 网 格 


广播 机 制 使 得 meshgrids 变 得 容易 。 例 如 需要 下 图 
所 示 〈 但 尺寸 大 得 多 ) 的 窍 阵 : 


| 
4 
人 一 1 一 
2 “ 甸 
umpy 7 : 
a = np.empty((2，3)) T 【 区 
二 维 数组 for i in range(2): 9 中 | -| 
mm for j in range(3): | 本 
a[i, 订 =j-i 加 症 攻 硬是 | 虽 
- 帮 
Meshgrids Python 
网 络 c = [[(j-i) for j in range(3)] for i in range(2)] 
人 a = np.array(c) 
(和 禄 壹 | 微 信 ShowMeAl 研究 中 心 
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上 述 两 种 方法 由 于 使 用 了 循环 ， 因 此 都 比较 慢 。 
MATLAB 通 过 构建 meshgrid 处 理 这 种 问题 


2 索 | 答 信 ShowMeAl 
MATLAB ovieu 研 闪 心 
nge(2) eshgridGi， = 

ind = 
ge(3) ndexing=' 订 ) 闲 二 六 
于 | 林 ” ” 国 3 
2 1 哨 于 ii 9 1 号 
Meshgrids | 1 唉 
会 
网 络 IT，J = np.ngrid[:3，:3] 辆 
扣 TI,，J = np.indices((2，3)) RE 
lambda ij,j: j-i， 〈 )) 
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meshgrid 函 数 接受 任意 一 组 索引 ， 通 过 mgrid 切 片 
和 indices 索 引 生 成 完整 的 索引 范围 ， ee 
fromfunction 吨 数 根 据 | 和 J 实 现 运 算 。 

在 NumPy 中 有 一 种 更 好 的 方法 ， 无 需 在 内 存 中 存储 
整个 和 J 和 矩 阵 〈 虽然 meshgrid 已 足够 优秀 ， 仅 存储 
对 原始 向 量 的 引用 ) ， 仅 存储 形状 矢量 ， 然 后 通过 
广播 规 实现 其 余 内 容 的 处 理 : 


和 
Numpy 还 
Cs ea 
者 
umpy S 
二 i，j = np,arange(2)， IT,， 了 = np.meshgrid(i，j，sparsecTrue， 
二 维 数组 np.arange(3) I indexing='ij") J-I 忌 
了 了 Eee 

自 了 全 
。 al1 e| 1 只 1 趾 确 

Meshgrids 
IT J= np.ogrid[:2，:3] 
网 络 TI,， 了 工 = np.indices((2，3)， rse=True) 
f @ 禄 索 | 徽 信 ShowMeAl 研究 中 心 | 
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如 果 没 有 indexing = 外 参数 ， 那 么 meshgrid 将 更 改 
参数 的 顺序 ， 即 J,|=np.meshgrid(j,) 一 一 一 种 用 于 可 


视 化 3D 绘 图 的 xy 模式 〔 祥 见 该 文档 ) 。 
除了 在 二 维 或 三 维 网 格 上 初始 化 函数 外 ， 网 格 还 可 
以 用 于 索引 数组 : 


国 3 
umpy 
I，J = np.indices(a.shape) 避 
二 维 数组 a 是 汪 arr, IJ] ar7I 号 
Meshgrids 加 时 0 呈 图 区 2 
网 络 
索 | 微 信 ShowMeAl 研究 中 心 
ttpz// h 
以 上 方法 在 稀 足 网 格 中 同样 适 


七 、 息 阵 统计 


就 像 sum 上 函数 ，NumPy 提 供 了 乱 阵 不 同 轴 上 的 mim/ 
max, argmin/argmax, mean/median/percentile， std/ 
var 等 函数 。 


Numpy 中 ” 
二 维 数组 70j 一 mmin 
矩阵 统计 


nb .amin 等 同 于 np.min， 这 样 做 同样 是 为 了 避 


免 from numpy import * 可 能 的 歧义 。 
ee 
小 和 最 大 值 的 索引 ， 
其 转换 为 二 维 坐标 : 


数 分 别 返 回 最 
过 unravel _index 函 数 可 以 将 


岛 及 = argmin ai 虽 
Numpy 
二 维 数组 注 一 argmin qij 
短 降 统计 。 。- usa 
G httpywwwshowmeaitechy np-unravel_index(a.argmin()，a.shape) ==- (1，2) A 


all 和 any 同 样 也 可 作用 于 特定 维度 : 


a 人 扫 索 | 微 信 ShowMeAl 研究 中 心 
直 三 习 丰 了 ar >5 吵 六 国 名 
Numpy 一 一” 
二 维 数 厂 =3ilaij >5 虽 np.a 
矩阵 统计 
a=3ailo>5 哺 omf 
人 心 http:/www.showmeaitech/y 


八 、 窍 阵 排 序 


虽然 在 前 文中 ，axis 参 
维 数组 排序 中 景 


参数 适用 于 不 同 函 
多 响 较 小 : 


数 ， 但 在 二 


因 

Numpy 双 
OO 人 sortsinplace 后 

二 维 数组 sorted(a) np.sort(a) retums new sorted array 号 
a,sort(key=f) 各 key function 观 


a.sort(reversed=False) ascendingjdescending 
矩阵 排序 


a.sort(axis=-1) which axis to sortalong 


| 全) 楼 索 | 微 信 ShowMeAl 研究 中 心 
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3 
外 

Numpy 四 
ft(axis=86) | 直 & 
二 维 数 组 中 9 1.8|5 纺 


矩阵 排序 re 中 
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我 们 通常 不 需要 上 述 这 样 的 排序 答 阵 ， ee 
参数 的 替代 。 但 好 在 NumPy 提 供 了 其 他 功能 ， 这 
功能 允许 按 一 列 或 几 列 进行 排序 : 

1、ara [:,0] .argsort ()] 表 示 按 第 一 列 对 数组 进 
行 排序 : 


0 角 


Ba np.sort(a) b b[[1,3,2,9]] 
Numpy 8 1 1 2 
二 维 数组 人 汪 加 3 

] 3 

3 9 

argso 


| 医 

*|、|w|e 

起 | 由己 站 过 

司 | 二 
向 


矩阵 排序 


rt(a) = br[np.argsort(b[:,6])] 
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其 中 ,argsort 返 回 排序 后 的 原始 数组 的 索引 数组 。 
可 以 重复 使 用 该 方法 ， 但 千 万 不 要 搞 混 


区 aolsiehamg 的 居 


a=arar:， ll.argdsort(kindq="stable'") ] 
a=arar:r，0l.ardsort(kindq="stable'") ] 
器 可 
0 
Numpy rr | 相 je 
二 维 数 组 1 司 和 中 路 吊 上 
矩阵 排序 anp.argsort(a[:,9])] aEnp.argsort(a[:,1])] bni 2 Ne 和 


仿 http:Wwww.showmeaitec 


受 | 徽 信 ShowMeAl 研究 中 心 


2、 上 函数 lexsort 可 以 像 上 述 这 样 对 所 有 列 进行 排 


序 ， 但 是 它 总 


已 v 忆 


( 即 从 下 到 上 ) ， 其 用 法 如 下 : 


是 按 行 执行 ， 并 且 排 序 的 


行 是 病 倒 的 


” 忆 [nP. Lexsort np .ELLpua(a[2，5] .ITI))] , 首 


先 按 第 2 列 排序 ， 然 后 按 第 5 列 排序 ; 


。 ar[np.lexsort (np.flipudq(a.T) )] ， 从 左 到 右 
依次 排序 各 列 。 
3 
Numpy ,是 ， 和 
二 维 数组 人 只 交心 虽 卢 叫 ， | 
矩阵 排序 人 
索 | 徽 信 ShowMeAl 研究 中 心 


其 中 ，f 册 pud 治 上 下 方向 翻转 答 阵 ( 治 axis = (0 方 


向 ， 与 a [::-1，.….] 等 效 ， 其 中 ... 表 示 “ 其 他 所 有 维 
度 " ) ， 注 意 区 分 它 与 册 plr ,fliplr 用 于 1 维 数组 。 


3、Ssort 国 数 还 有 一 个 order 参 数 ， 但 该 方法 极 不 友 
好 ， 不 推荐 学 习 。 


4、 在 pandas 中 排序 也 是 不 错 的 选择 ， 因 为 在 
pandas 中 操作 位 置 确定 ， 可 读 性 好 且 不 易 出 错 : 


。 pq.DataFrame (a) .Sort_Values (by=[27，5]) .to_numpy 
先 按 第 2 列 排序 ， 再 按 第 5 列 排序 。 
。 Pad.DataFrame (a) .Sort_Values () .to_numpy () ， 


按 从 左 到 右 的 顺序 对 所 有 人 列 进行 排序 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 NumPy 速 查 表 
。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 和 速 查 表 


拓展 参考 资料 


。 NumPy 教 程 
。 Python NumPy 教 程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 y 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 


。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


Python 数据 分 析 | Numpy 与 
高 维 数 组 操作 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123134962 
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侠 


Python 
统计 与 数据 人 NUmnTyY 生态 系统 中 科学 计算 的 核心 到 振 之 一 


了 同和 是 吕 信 下 


了 
科学 计算 库 :oo 
区 ， 三 维 数组 “ 
Num 
py -aas 维 数组 
微 信 ShowMeAl 研究 中 心 | 
CC httpWwwwshowmeaitech/ 


n 维 数组 是 NumPy 的 核心 概念 ， 大 部 分 数据 的 
操作 都 是 基于 n 维 数组 完成 的 。 本 系列 内 容 履 
盖 到 1 维 数组 操作 、2 维 数组 操作 、3 维 数组 操 
作 方 法 ， 本 篇 讲解 Numpy 与 3 维 、 更 高 维 数组 
的 操作 。 


有 时 候 我 们 会 使 用 到 3 维 或 者 更 高 维 的 NumPy 数 组 
(比如 计算 机 视觉 的 应 用 中 ) ， 维 向 量 或 
转换 多 套 Python 列表 来 创建 分 别 
对 应 (z,y,X)。 索引 z 是 平面 编号 Ca 
上 移动 ， 如 下 图 所 示 : 


np,array([ [[1，2]， 权 国 中 
np-arange(1，9).reshape(2,2,2) L 这 2 史 1 | > 加 
7，8: 区 悦 国 
Numpy [ ]] ]) 
高 维 数组 二 
ijk 
np.array([[[96，9，6，6], 麦 医 语 医 训 本 | 
下 [9，9，9，9]]， 太 | | 
高 维 数组 人 1， 下 0 .shape == (3，2，4) 下 ee|e| | 9 
[[2，2，2，2]， ! 人 Ia 时 
2 z 六 s 提 后 | 
站 httpywwwsi tech 


页 序 ， 可 以 方便 的 保留 灰 度 图 像 ，afi] 


表示 第 i 个 图 像 。 


具有 广 沁 性 ， 例 如 在 处 理 
RGB 图 像 时 ， 通 常 使 用 (y,x,z) 顺 序 : 首先 是 两 个 像 


素 坐 标 ， 然 后 才 是 颜色 坐标 (Matplotlib 中 的 RGB ， 
OpenCVv 中 的 BGR ) 


7 
加 np.array([ [[6,1,2]，[9,1,2]，[8,1,2]，[9,1,2]]， .shape -= (2，4， 抽 | 
[[6,1,2]，[8,1,2]，[6,1,2]，[e,1,2]] ]) |， 加 
和 
yx 再 
Numpy 人 宅 
让 色 
二 
高 维 数 组 np.dstack(([[6，6，8，9] Imiaik [13 二 5 
[6，98，9，9]]， 加 攻克 量 有 
人 EN 全 志 多 司 | | 人 
高 维 数 组 [二 入 |， 一 1 
人 本 lolols 
[2，2，2，23]7)7 村 人 
人 二 索 | 向 信 ShowMeAl 研究 中 心 | 
人 httpyywwwshowmeaitechy 


这 样 可 以 方便 地 定位 特定 像素 , 如 ari, j] 给 出 像素 
人) 的 RGB 元 组 。 


因此 ， 几 何 形状 的 创建 实际 取决 于 你 对 域 的 约定 : 


Generic 3D arrays creation 
p ((3,4;5) p (3,4,57) 
3 本 
UmIPY aolololol Ai 
四 
高 维 数 缚 0|0|010 10 0 六 启 区 司 改 ， 1 
组 0|ololo ol 主人 司 本 
上 1 罗 训 可 1 玫 
0 | ol 了 了 
0|10|0i10 0 1 对 训 隐 
高 维 数组 - 
zeros((4,5,3) ones((4,5,32) np.random.rand(4,5,3) 
汉 ,二 志 | 微 售 ShowMeAl 研究 中 心 
RGB images crek 
SS http:Wwww.showmeaiuecn 


显然 ，hstack ， 0 ee 涡 数 


并 不 一 定 满 足 这 些 约 定 ， 其 时 页 序 是 


页 序 如 下 


二 np.hstack((a，c)) 
网 国 , > 2 


了 凤 区 


5|156 


Numpy 一 嘲 


(3，6，2) “axis=1” 
[二 dd 
高 维 数 组 np. 本 人 b)) 和 全 汪 | 
5 7 |13 np.dstack((a，d)) 
2 
高 维 数组 (2 4 2) 本 记 本 | 均 JE 
[可 ] 
3 
杰 索 | 微 信 Show 1 闪 中 心 | 
GS httpywwwshowmeaitech/ 。 "axis=0”(5，4，2) 人 2 


如 果 数 据 不 是 这 样 的 布局 ， 使 用 concatenate 命 令 可 
以 方便 的 堆 妓 图 像 ， 并 通过 axis 参 数 提供 索引 号 : 


昌 C np.concatenate((a，c)，axis=2) 
加 回回 加 训 旨 ,>, 2 国医 对 国 加 可 旋 
攻击 引 s 8 3|14 虽 固 区 JE 中 区 员 "axis=2” 
了 YY 一 本 加 匠 | 5|6 区 1 1215|5 
(2，3，9 
证 全 革 | 3 13 | 了 
上 刚 | 4 3 国 辐 呵 攻 mp:concatenate((a， d)，axis=9) 
隔 辐 图 (2，2，4) 39311015 | 
al 座 人 3 4) 可 要 ; 固 [ 索 | 微 
证 5 5 7 |: ShowMenl 
3 | 
上 np.concatenate((a，b)，axis=1) 391e|1 1 2 研究 中 心 
是 间 | Lv / 
人 httpywwwshowmeaitech/"axis=1"”(2，5，4) 人 3 4) “axis=0” 


如 果 个 考虑 条 数 ， 可 以 将 数组 转换 hstack 和 相应 形 


二 
np.array([[[e6，9，6，9]， 人 
[9，6，6，9]]， 了 国 夺 站 是 中 
5C1 1 1，1]， .shape == (3，2，4) | jelele 中 日 
了 卫 卫 隐情 了 j 加 
[5C2，2，2，2]， 上 9 elele 
下 忆 有 一 一 
一 k 区 
np.moveaxis(a，6，2) 会 人 昌 
et 竟 
np.moveaxis(im，2，9) 
宣 儿 np.dstack(([[e6，9，6，91 im 本 加 天 天 有 一 
，9，9，9]， 册 
高 维 数组 人 一 
[[1，1，1，1]， .shape == (2，4，3 隔 [ 富 
上 下 和 二 中 | | ShowMeAl 
rra' 2; 2 2]， 88 8 8 一 研究 中 心 
[有 22 2 他 村 
http:Wwww.showmeaite j 


这 种 转换 非常 方便 ， 该 过 程 只 是 混合 索引 的 顺序 重 
排 ， 并 没有 实际 的 复制 操作 。 


通过 混合 索引 顺序 可 实现 数组 转 置 ， 掌 握 该 方法 将 

加 帝 你 对 3 维 效 据 的 了 解 。 根 据 确定 的 轴 上 顺序， 转 置 
数组 平面 的 命令 有 所 不 同 : 对 于 通用 数组 ， 交 换 索 

引 1 和 2， 对 于 RGB 图 像 交 换 0 和 1 : 


newre 


Numpy 
高 维 数组 


高 维 数组 


| 


注意 ， transpose (a.T) 的 默认 轴 参 数 会 颠倒 索引 
顺序 ， 这 不 同 于 上 述 述 两 种 索引 顺序 。 


广播 机 制 同 样 适 用 多 维 数 组 ， 更 多 详细 信息 可 参阅 
笔记 * NumPy 中 的 广播 ”。 


最 后 介 给 绍 sinsum(Einstein summation) 台数 ， 这 将 
使 你 在 处 理 多 维 数 组 时 避免 很 多 Python 循环 ， 代 码 
更 为 简洁 : 


图 
及 间 e 及 下 


Numpy 
Matrix multiplication Tensor multiplication - 
三 3 
高 维 数组 6 感人 Qi7D 庆 cijlm 二 >》 ，oijrpham 总 
站 大 起 

高 维 数组 


c = np.einsum('ij,jk->ik'，a，b) <c = np.einsum('ijk,klm->ijlm'，a，b) 


1 担 误 | 微 信 ShowMeAl 研究 中 心 


该 水 数 对 重复 索引 的 数组 求 和 。 在 一 般 情 况 下 ， 使 
用 np.tensordot (a,b,axis=1) 就 可 以 ， 但 在 更 复杂 
的 情况 下 ，einsum 速 度 更 快 ， 读 与 更 容易 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。NumPy 速 查 表 
。 Pandas 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 和 速 查 表 


拓展 参考 资料 


。 NumPy 教 程 
。 Python NumPy 教 程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业 务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 


。 基 于 Pandas 的 数据 可 视 化 
。 Seaborn 工 具 与 数据 可 人 秽 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


Python 效 据 分 析 | 效 据 分 析 
工具 库 Pandas 介 绍 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123135174 
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一 、Pandas 介 绍 


| 

国 ) 颗 
人 图 
可 


E Python 
数据 操作 册 PQImdQlS 有 六 用 本 的 数 本 打 作 和 人 1 工 具 包 


和 分 析 工 具 库 
Pandas 假 : 


他 http:Wwww.showmeaitechy 


。 官网 : http:Wpandas.pydata.org/ 
。 文档 : http:Wpandas.pydata.org/pandas-docs/ 
Stable/ 


Pandas 最 初 由 AQR Capital Management 于 2008 年 
4 月 开发 ， 并 于 2009 年 底 开 源 出 来 ， 目 前 由 专注 于 
Python 数据 包 开 发 的 PyData 开 发 团队 继续 开发 和 维 
护 ， 属 于 PyData 项 目的 一 部 分 。Pandas 的 名 称 来 
自 于 面板 数据 (panel data ) 和 python 数 据 分 析 


(data analysis ) 。 


Pandas 是 Python 中 最 弟 用 到 的 数据 操作 和 分 析 工 具 
包 ， 它 构建 在 Numpy 之 上 ， 具 备 简 洁 的 使 用 接口 和 
高 效 的 处 理 效率 。 效 据 科 学 、 机 器 学 习 Al 应 用 过 
程 ， 涉 及 数据 清洗 和 分 析 的 操作 也 频繁 使 用 到 


Pandas。 


Pandas 有 着 与 Numpy 类 似 的 代码 风格 ， 但 Pandas 
主要 基于 其 Dataframe 对 象 处 理 表 格 型 或 异 质 型 数 


据 ， 而 之 前 介绍 到 的 Numpy 更 适合 处 理 同 质 的 数值 


类 型 数据 。 


当 我 们 提 到 python 数 据 分 析 的 时 候 ， 大 部 分 情况 下 
都 会 使 用 Pandas 进 行 操作 。 本 篇 为 pandas 系 列 的 

导语 ， 对 pandas 进 行 简单 介绍 ， 整 个 系列 覆盖 以 下 
内 容 : 


。 图 解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 


二 、Pandas 特 点 


。 方便 地 处 理 浮 点 与 非 浮 点 数据 里 的 缺失 数据 ， 
表示 为 NaN ; 

。 大 小 可 变 : 插入 或 删除 DataFrame 等 多 维 对 
象 的 列 ; 

。 自动 、 显 式 数据 对 齐 : 显 式 地 将 对 象 与 一 组 标 
签 对 齐 ， 也 可 以 忽略 标签 ， 在 Series、 
DataFrame 计算 时 自动 与 数据 对 齐 ; 

。 强大 、 灵 活 的 分 组 (group by ) 功能 : 拆 分 -应 
用 -组 合 数据 集 ， 聚 合 、 转 换 数据 ; 

。 把 Python 和 NumPy 数据 结构 里 不 规则 、 不 


同 索引 的 数据 轻松 地 转换 为 DataFrame 对 
象 ; 

。 基于 智能 标签 ， 对 大 型 数据 集 进 行 切片 、 花 式 
索引 、 子 集 分 解 等 操作 ; 

。 直观 地 合并 (merge ) 、 连 接 (join ) 数据 集 ; 

。 灵活 地 重 塑 ( reshape ) 、 透 视 (pivot ) 数据 
集 ; 

。 轴 支 持 结构 化 标签 : 一 个 刻度 支持 多 个 标签 ; 

。 成 熟 的 IO 工具 : 读 取 文本 文件 ( CSV 等 支持 
分 隔 符 的 文件 ) 、 Excel 文件 、 数 据 库 等 来 源 
的 数据 ， 利 用 超 快 的 HDF5 格式 保存 / 加 载 数 
据 ; 

。 时间 序 列 : 支持 日 期 范围 生成 、 频 率 转 换 、 移 
动 窗口 统计 、 移 动 窗口 线性 回归 、 日 期 位 移 等 
时 间 序 列 功能 。 


二 呈 一 说 士 

一 、Pandas 女 交 

可 以 在 命令 行 基于 以 下 命令 安装 pandas ( 如 果 使 用 
anaconda 集 成 环境 ， 内 置 环境 自 融 pandas， 无 需 


安 装 ) : 


从 下 加 汪 1WiSiessili 加 aaGaiS 


GonadasdnstallpDpanaas 


EYEnonmoa=meoenstall== 王 uporsaescanaoss 


对 于 Linux ,比如 Ubuntu， 可 以 使 用 下 面 的 方法 安 
装 ， 但 可 能 出 现 各 种 依赖 缺失 或 者 安装 错误 : 


Siieleo 本 EeeEeEE OSIEENRIoNaenEnuinoy EnEEnee) 


安装 完 Pandas 后 ， 我 们 就 可 以 在 python 环 境 中 导入 
它 了 : 


荆 iDOCFLEREDanaoasasepa 


有 有 时候， 我们 会 单独 导入 pandas 包 含 的 两 个 重要 数 
据 结 构 : 


from Pandqas import _ Series DataFrame 
可 以 如 下 查看 当前 Pandas 的 版 本 信息 : 


Pd. version 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 


中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 水 及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 

。 Pandas 速 查 表 

。NumPy 速 查 表 


。 Matplotlib 速 查 表 
。Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 官 方 教程 
。 Pandas 中 文教 程 
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。 数据 分 析 介 绍 
。 数据 分 析 思 维 
。 数据 分 析 的 数学 基础 
。 业务 认 知 与 数据 初探 


。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
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Python 效 据 分 析 | Pandas 核 
心 操 作 上 函 效 大 全 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123135448 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 
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数据 操作 | 上 Pandas aaswsaaraanzna 
和 分 析 工 具 库 
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当 我 们 提 到 python 数 据 分 析 的 时 候 ， 大 部 分 情况 下 
都 会 使 用 Pandas 进 行 操作 。 本 篇 为 pandas 系 列 的 
导语 ， 井 行 简单 介绍 ， 整 个 系列 履 盖 以 下 


图 解 Pandas 核 心 操作 函数 大 全 
图 解 Pandas 数 据 变换 高 级 函数 
Pandas 数 据 分 组 与 操作 


本 篇 为 “图 解 Pandas 核 心 操作 函数 大 全 。 ， 讲 解 
Pandas 进 行 效 据 操作 和 处 理 的 核心 数据 结构 : 


Series、DataFrame 和 Index。 


一 、Pandas Series 


Series 是 一 个 一 维 的 数组 对 象 ， 它 包含 一 个 值 序列 

和 一 个 对 应 的 么 引 序 列 。 Numpy 中 的 一 维 数组 也 有 
隐 陈 定义 的 整数 么 引 ， 可 以 通过 它 获取 元 素 值 ， 而 
Series 用 一 种 显 式 定义 的 这 引 与 元 素 关 联 。 


显 式 索引 让 Series 对 象 拥有 更 强 的 能 力 ， 索 引 可 以 
是 整数 或 别 的 类 型 (比如 字符 串 ) ， 索 引 可 以 重 
复 ， 也 不 需要 连续 ， 自 由 度 非 常 高 。 


Pandqas .Series (qata， indqex，， qtype， copy) 


yy pandas,Series(data， 数据 采取 各 种 形式 ， 如 ndarrayvlist constant| 
四 | 
Pandas index，\ index 索引 值 必须 是 唯一 的 、 散 列 的 ， 与 雪 据 的 长 度 包 
相同 。 默 认 np.arrangeCn) 如 果 没有 索引 被 传递 。 创 

Series dtype， \_dtype 用 二 数据 类 型 。 如 果 没有 ， 将 推 数 据 类 型 。 


copy) 复制 数据 ， 黑 认为 false。 
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CSP httpyWwww.showmeaitechy 


1.1 从 numpy array 创 建 Series 


如 果 数 据 是 ndarray， 则 传递 的 么 引 必须 具有 相同 的 
长 度 。 如 果 没 有 传递 索引 值 ， 那 么 默认 的 索引 将 是 
范围 (n)， 其 中 n 是 数组 长 度 ， 


即 [0,，1， 2，3..， zange (Len (array))-1] 。 


BaneassSenmesiknp 瑟 aa ly GOG SG 


3] ) 


如 果 没 有 传递 索引 值 ， 那 么 默认 的 索引 将 是 范围 , 荐 
n 是 数组 长 度 ， 即 [0, 1, 2, 3.., rangedlen(array))-1] A 


5 
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1.2 从 字典 创建 Series 


0 es 和 及 有 指定 这 引 ， 
人 


叶 字 


之 王 夯 、 


索引 ， 


anmass SEE 环 作 下 3 下 攻取 站 66 ES 9 77，、\ 


andas . 有 汪 革 7 区 昌 < 的 各 人 有 证 人 < 


1 
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Pandas 


1.3 Series 数 据 的 访问 


通过 各 种 方式 访问 Series 数 据 ， 系 列 中 的 数据 可 以 
使 用 类 似 于 访问 numpy 中 的 ndarray 中 的 数据 来 访 
癌 。 


Qata 


qata[o0] 

EUEEHEESS 

GaileaaOS 证 

Qata[2:4] 

Qqata[4:]j 

oo aetol 2 习 aestea aasate 


Pandas 


Series2 
Series 
N 数组 的 访问 
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1.4 Series 的 聚合 统计 


Series 有 很 多 的 聚合 负 数 ， 可 以 方便 的 统计 最 大 
值 、 求 和 、 平 均值 等 


B -47 
1 66l 
2 


mean()= 57.5 各 .Sum()= 345 


series 的 
村 合 统计 
N 


4 
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二 、DataFrame( 数 据 帧 ) 


DataFrame 是 Pandas 中 使 用 最 频繁 的 核心 数据 结 
构 ， 表 示 的 是 二 维 的 和 矩阵 数据 表 ， 类 似 天 系 型 数据 
库 的 结构 ， 每 一 列 可 以 是 不 同 的 值 类 型 ， 比 如 数 
值 、 字 符 串 、 布 尔 值 等 等 。 


DataFrame 既 有 行 么 5 上 |， 也 有 列 么 3 引 ， 它 可 以 被 看 
做 为 一 个 共享 相同 索引 的 Series 的 字典 。 它 的 列 的 
类 型 可 能 不 同 ， 我 们 也 可 以 把 Dataframe 想 象 成 一 
个 电子 表格 或 SQL 表 。 


5 

DataFrame / 数据 帧 columns index 列 索 引 画 
二 级 的 类 隆 歼 握 表 人 多、 。 :1  。 。 5 训 

Pandas rowsindex 6 47 94 43 92 | 567 19 站 
行 索引 1 66|52 48 | 79 94 44 生 

DataFrame 二 洒 


和 “了 
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Pandqas .DataFrame (qata， indqex， colLlumns，dqtype，， co 


CI pandas . 数据 采取 各 种 形式 ， 如 ndarray 、series 


Pandas 


DataFrame 人 对 干 列 标签 ， 可 选 的 默认 语法 是 区 
np.arrange(n)， 如 果 没 有 索引 被 传递 。 


每 列 的 数据 类 型 。 


搜索 | 微 信 dtype， 
ShowMeAl 
研究 中 心 | copy) 


复制 数据 ， 默 认为 false。 


2.1 从 列表 创建 DataFrame 


从 列表 中 很 方便 的 创建 一 个 DataFrame， 默 认 行 列 
么 引 从 0 开始 。 


攻 人 人 人 全 全 26 全 让 本 
EGG 2 8 2 人 4 区 
攻 人 人 6 村 
古村 
[二 二 才 二 星 的 下 区 和 放 志 岂 二 如 | 
队 汪 和 有 9 


Panaas -Datagrame(s) 


Pandas 


DataFramez 


从 列表 创建 


DataFrame pandas 


枚 
[ 
[ 
[48， 
[77， 
[ 
[ 
] 
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2.2 从 子 典 创建 DataFrame 


从 字典 创建 DataFrame ， 自动 按照 字典 进行 列 索 
引 ， 行 索引 从 0 开始 。 


的 全 7 
人 
> | 多 多 7 
全 | 区 2Y 
臣 全 中 本 | 纪 


与 27 
48， 
2 
94， 
44， 


2 村 
学 
14， 
用 易 7 
6 


业 0 
WO 
42， 
2 
627 


Panaas.DataFrame (s， 


丰 g7 
87 
兄 呈 7 
43， 
SS 


60] ， 
22]， 
46]， 
50]， 
4 可 区 


Golumns 王 | eeYGCCDI  ， 


所 


Pandas 
PataFrams 


从 字典 创建 


DataFrame 


[ 
“ca :[47， 
< :[94， 
二 中 
[ 
[ 


[19， 


pandas . 


ccy xd 


,eey ef?]) 
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2.3 pandas Dataframe 列 选择 


在 刚 学 Pandas 时 ， 行 选择 和 人 列 选择 非常 容易 混 清 ， 
在 这 里 进行 一 下 整理 常用 的 列 选 择 。 


IEUEE 训 加 基 E1 全 用 


ET 语 区 CI 


@a 芭 aa 
Qaeaill 人 二 


QQaEaEliee 光 


ENEE 全 网 几 主 三 让 全 


0 ] 


[0v3v4]] 


Se Se 2 避 间 


# 返回 a 列 ，DataFrame 格 式 
# 返回 a 列 ，Series 格 式 
# 返回 a 列 ，Series 格 式 
# 返回 a 列 ，Series 格 式 


全 7 


@aeaaiiccle CRDYES 串 
可 3 三 避 2 # 第 3 列 及 以 后 
data.iloc[:，2:5]  # 第 3、4、5 列 
四 SSE # 开始 两 列 


返回 a 列 ，DataFrame 格 式 


Pandas 


DataFrame 
data[“a”] 


DataFrame 
可 笃 | 
3 要 索 | 微 信 ShowMeAl 研究 中 心 


人 httpy/ 
V 


Pandas 


DataFrameaz 


DataFrame 


人 
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2.4 pandas Dataframe 行 选择 


整理 多 种 行 选 择 的 方法 ， 总 有 一 种 适合 你 的 。 


加 aall 呈 E2 可 
四 IEUEEI GUI 
qata.loc[1] # 返 回 Series 格 式 


gasaRnirocl 王 证 


@IETEE 刘 [和 呈 | 
Qata.tailL(1) 


四 | 


Pandas 
DataFramae 


/ Pandas 
DataFrame 
行 选择 
ShowMeAl 
研究 中 心 


LE1 
data,1loc[1: 
data.loc[1] 
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Q@ateaili2ss5j 
GataccI2 


四 IE EE 司 阁 OG II SS 


四 


NT 


Pandas 
DataFram CT 


站 Pandas 
DataFrame 
行 选择 idata[2:5] : 
data.loc[ data.iloc[[ 


售 ShowMeAl 研 究 中 心 | 
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Qata.headq(2) 
ET 证 国 是 (用 ) 


daqata.sample(3) 


Pandas 
DataFra Da 


Pandas 
DataFrame 
EN 行 选择 
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2.5 pandas Dataframe 返 回 指定 行列 


pandas 的 DataFrame 非 常 方便 的 提取 数据 框 内 的 数 
据 。 


sa 本 下 Si 亲民 


ENE ER 罗马 | 放 必 本 2 | 革 下 上 届 克 司 玫 4 喇 


Pandas 


| @ 缚 这 | 向 信 ShowMeAl 研 究 中 心 | 


2.6 pandas Dataframe 条 件 查询 


对 各 类 数值 型 、 文 本 型 ， 单 条 件 和 多 条 件 进 
择 


行 行 选 


Qaieailiaaeaa>50 
Qaeaiiiedateaill 人 si 荆 SO 
Qata.loc[dqata.a>50，:] 
@aeaeirociaaieailsali2 5 


CD # 单 一 条 件 RS 

data.[data.a>56] 四 四 94 la s ez| 92 67 | :上 

P d data[data[*“a?] ] 站 
anqas data.loc[data.a SHI 


| 
器 
data.loc[data[“a:] 名 | 


DataFramez 


1 Pandas 
DataFrame 


条 件 查询 
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Qata.loc[(dqata.a>40) & (aqata.b>60)，: 
Qatal[l(dqata.a>40)&(dqata.b>40) ] 


包 人 
data.loc[(data.a ) (data.b 也 


Pandas data[(data.a )&(data.b>49)] 攻 攻 四 攻 国医 上 


DataFramez 


1 Pandas 


DataFrame 


N。 条 件 查 询 
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loleETIEEIRESURIEIO2 el 人 骨 


Gateaeccieaeaill ai SEASD ci 辣 


datasloc[data.a>56， [ear sb isdz]] 


上 
Pandas data.loc[data[“a”] | 四 四 半 
已 


DataFramse 


Pandas 
1 DataFrame 
愉 。 条 件 查询 
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Ga 人 SESS25 由 ESESRSEE CE 本 生 国 o1GR 
se 已 三 轨 让 必 省 本 IEGDLE > 可”])) 


多 条 件 ， 指 定 列 
data.loc[(data.a>56)|(data.g==“GD7) 
0 
Pandas [上 志和 


多 条 件 ， 指 定 列 
at+a.1oc[(data,a )|(data.g 


Patarrams 让 


DataFrame 


条 件 查询 
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2.7 pandas Dataframe 聚 合 


可 以 按 行 、 列 进行 聚合 ， 也 可 以 用 pandas 内 置 的 
describe 对 数据 进行 操作 简单 而 又 全 面 的 数据 聚合 
分 析 。 


data.Sum(axiSs=1I) 
numpy.mean (Qata.values) 


Qata.sum(axis=0) 


合 


numpy , 


data. 


data， 


| 345 247 316 | 366 


(data.values) 


386 | 275 


个 httpwwwwshowmeaitechy | 要 过 | 微 信 ShowMeAl 研究 中 心 
@aieaaescnraos 二 
间 aa < d 盟 
各 
6 6 6 6 盯 
Pandas 52.67 61.69| 51.68 45.83 二 
| 
19.41 31,95| 26.22 15.25 人 
加 
main 16 18 到 14 23 19 
25% 47,25 | 12.75 | 44.25 43,69 | 32.56 41.75 
Pandas 三 ] 上 ] 
56% 57.68 | 36.56 | 53.68 62.58| 46.56 48.598 
DataFrame 
75% 74.25 | 58.68 67.68 88.75 62.75 55.25 
聚合 E | =， 寺 
91 3 
人 人 请 寺 全 8oww4 研 光 和 心 | 


SS 
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2.8 pandas Dataframe 中 的 


Qata.function(axis=0) 


Qata.function(axis=1) 


和合 [站 ea” | 非 NA 值 的 计数 
二 5 describe 计算 汇总 统计 
andas minsmax | 计算 最 小 值 \ 最 大 值 


argmin、argmax 


DataFrame 


jdmin、idmax 


quantile 
Pandas sum 
DataFrame mean 
聚合 函数 median 


计算 能 够 获取 的 最 小 /大 值 的 索引 位 置 


计算 能 够 获取 的 最 小 /大 值 的 索引 值 


计算 样本 的 分 位 数 
求 和 
mean 均 值 


中 位 数 ( 同 quantile(0.58)) 


kurt 峰 度 
累计 求 和 
cummin .cummax | 累计 最 小 /大 


累计 积 
差 介 


cumsum 


cumprod 


diff 
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2.9 pandas Dataframe 分 组 统计 


可 以 按照 指定 的 多 列 进行 指定 的 多 个 运算 进行 汇总 


Gohsouooo 二 是 Sm 
docoppoy oa 由 ERaogoiglinumnoy smenunmby .mea 


GE geemeoyil ol 全 Di 上 本 meEam 


站 和 攻 aa b c 到 ff 

四) F] | 125 145 56 52 | 118 时 - 
AS 四 
GD ,113 | 146 | 91 | 171 | 161 | 63 名 

Pandas ES 


GD IIzd 86 人 


| 
FJ FZ 63 16 | .73: 28 26 59 
DataFrame 
GD GZ 37 94 43 92: 67 :8 
BE sum mean std 
RS SZ 
FJ] 56 28 268 
GX 
总 


GX ([“g"，“h>]).mean 


Pandas 


Datarrame “| 人 本 和 (cg )([cd]) .age([numpy,sum 


分 组 统计 ShowMeAl numpy ,mean 
SS 


、 研究 中 心 numpy.std]) 


2.10 pandas Dataframe 透 视 表 


透视 表 是 pandas 的 一 个 强大 的 操作 ， 大 量 的 参数 完 
全 能 满足 你 个 性 化 的 需求 。 


Pandqas .Pivot_ table(dqf，indqex= `g9"，Values= 、\a7"， co 


Pandas 


DataFrame 


a CE 
47 | 94 43 92 | 67 | 19 | Gp | Gz 
66 | 52 48|179 94 ,44 | GD | SZ 


Pandas 


f 
DataFrame 0OwMeAlI 研究 中 心 


透视 表 (df < ra [mb],、\ 
[numpy.sum] ) 


人 心 http:wwwwshowmeaitechy 


2.11 pandas Dataframe 处 理 缺 失 值 
pandas 对 缺失 值 有 多 种 处 理 办 法 ， 满 足 各 类 需求 。 
data.dqropna(axis=0) 
data.dqropna(axis=1) 


qata.dqropna(axis=0) 


-| 


和合 日 47 94 43 92|, 67 19 GD Bi147 94143|192| 67 ,19 | GD 厅 


1 66 52 la.79| 94 44 GX 1 156| 52 | Nall| 79 | 94 44 | GXa 


”全 到 | 宫 [ 本 | 面 


3 绅 77 119 179 142|Nali52 ;5SH 
Pandas 
DataFrame 
d 


8 |47 |94 | 43 |92 57 |19 | GD 8 ,47 94 43 92 67 19 GD 


红 
66 52 555 79 94 44 GX 


66 缀 hh 79 94 44 三 


人 

《以 搜 才 
ShowMeAl 
研究 中 心 | 


Pandas 有 


DataFrame 4 


处 理 缺 矢 值 5 
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2.12 pandas Dataframe 查 找 蔡 换 


pandas 提供 简单 的 查找 替换 功能 ， 如 果 要 复杂 的 查 
找 蔡 换 ， 可 以 使 用 map () 、apply() 和 applymap () 


Qata.replace ( `GD7" ， 、`GDS “ ) 


GeclaEsa:>5ORE SIE8SS 


ES 


四 


T [ 加 中 于 | [ | 
日 47 ,94 ,43 92 | 67 | 19 GD 日 | 47 94 | 43 | 92 | 67 19 区 中 
| 名 


二 寺 硬 喇 ] 
| 66 | 52 | Ha | 79 | 94 | 44 | GX 1 |66 |52 | al|79 | 94 44 | GXa 


Pandas 


DataFrame 


一 一 一 一 一 
| 92 | 67 19 Sp | 


79 sa 44 | GX 


Pandas 本 中 
ShowMeAl 
1 DataFrame | 研究 中 心 | 
EN 查 概 蔡 3 


2.13 pandas Dataframe 多 数据 源 合并 


两 个 DataFrame 的 合并 ，pandas 会 自动 按照 索引 对 
齐 ， 可 以 指定 两 个 DataFrame 的 对 齐 方式 ， 如 内 连 
接 外 连接 等 ， 也 可 以 指定 对 齐 的 索引 列 。 


aqf3 = Pandas .merde (af1，qdqf2，how= inner” ) 


Qf3 = Pandas .merde (af1，dqf2，how= inner"，1Left_ 1IL 


df1 df2 
id 筷 id  d 
pandas | |s[ 吉 。[ 
1 |2|152|48 1 | 医 2 吕 罗 
DataFrame 2 2 
一 


df3 = pandas， (df1，df2， “inner” )》 


Pandas 


DataFrame 


df3 pandas , (df1，df2， “inner”， 
， ) 
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2.14 pandas Dataframe 更 改 列 名 


pandas 要 对 Dataframe 的 列 名 进行 修改 ， 操 作 如 
下 


@aeaweoilnamns 三 | OCX GE 全 全 全 | 


Pandas 


DataFrame 


更 改 列 名 


2.15 pandas Dataframe 的 apply 变 换 函 


效 


这 是 pandas 的 一 个 强大 的 画 数 ， 可 以 针对 每 
录 进 行 单 值 运算 ， 无 需 手动 写 循 环 进行 处 理 。 


qf[ \i"]=af.apply(compute，axis=1) 间 


Qftl 1 jl=aft acply(eccneute2， axls=) 


“| 


a+b>100 返 回 1 


# g 包 含 sSD、FEd 


光合 二 是 和 RE 


轩 日 | 47 94 | 43 92 ,67 | 19 | GD GZ 日 | 47 94 143 92 6 19 6@p 到 

和 94 44 @ jsz 加 
坚 
素 
7 
至 

Pandas 

atb>100 返 回 1， 否 则 返回 0， 
DataFrame 存 瞩 到 新 的 一 列 df[ 
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Pandas 


DataFrame 


apply 变 换 函 孝 
g 包 含 GD FJ 的 ，e 小 于 50 的 
返回 1， 否 则 返回 0 人 四 (compute2 
人 httpy/ 


Qqef compute (arLr) : 
as= ace a | 
oo 人 el 
oO 的 

正名 臣下 开 页 下 
SS 


return 0 


Qqef compute2 (arr) : 


aa= acrr[lrer|j 


全 

下 可 
天 所 七 志 工 证 

SSsee 


return 0 


Pandas 


DataFrame 


returcn 
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资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAlI 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 


。 NumPy 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 官 方 教程 
。 Pandas 中 文教 程 


ShowMeAlI 相 天 文章 推 戎 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业 务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。Numpy 与 1 维 数组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数 组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 


。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图 解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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article/details/123135896 
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作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/147 
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Pandas 


当 我 们 提 到 python 数 据 分 析 的 时 候 ， 大 部 分 情况 下 
都 会 使 用 Pandas 进 行 操作 。pandas 整 个 系列 履 盖 
以 下 内 容 : 


图 解 Pandas 核 心 操 作 函 数 大 全 
图 解 Pandas 数 据 变换 高 级 函数 
Pandas 数 据 分 组 与 操作 


本 篇 为 “图 解 Pandas 数 据 变换 高 级 函数 。。 


一 、Pandas 的 效 据 变换 局 级 
吗 效 


全 信介 全 生计 才 程 中 ， 经 常 需要 对 DataFrame 进 行 逐 
行 、 逐 列 和 逐 元 素 的 操作 (例如 ， 机 器 学 习 中 的 特 
征 工程 阶段 ) 。Pandas 中 有 非常 高 效 简 易 的 内 置 函 
数 可 以 完成 ， 最 核心 的 3 个 函数 是 map、apply 和 


applymap。 下 面 我 们 以 图 解 的 方式 介绍 这 3 个 方法 
的 应 用 方法 。 


首先 ， 通 过 numpy 模 拟 生成 一 组 数据 。 数 据 集 如 下 
所 示 ， 各 列 分 别 代表 身高 (height ) 、 体 重 
(weight ) 、 是 否 吸烟 (smoker ) 、 性 别 
(gender ) 、 年 龄 (age ) 和 肤色 〈color ) 。 


exe areioipiloA 二 0e 


import pandqas as Pd 


Doolean= [IFrueyrEalse|j 

EL 

忆 辣 二 全 王 | 有 二 下 全 相合 

Qata=pdq.DataFrame (1{ 
屿 TEN 风 G SEOLGIRSSSEUNGEOUG ERSIOORSOROI 本 
weiseheenBRanaom 本 amnannEE (4 下 20 RUOU 
STORE 用 作曲 忆 二 ea 交 下 福 让 和 下 避 下 证 文昌 了 站 本 二 anmaeih. 工 anq 
下 可 全 而 人 主 天 [GEmQeT [二 ET 文王 anacomtl randi 
全 


CGOjienee aece EC 文生 用 四 是 科研 有 和 Wi9mndint 


已 
Pandas 
数组 变 换 函数 


om ,ra (9@,Len(color),199) ]}) 中 
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Series 数 据 处 理 


2.1 map 方 法 


当 我 们 需要 把 series 数 据 逐 元 素 做 同一 个 变换 操作 
时 ， 我 们 不 会 使 用 for 循 环 (效率 很 低 ) ， 我 们 会 使 
用 Series.map() 来 完成 ， 通 过 简单 的 一 行 代 码 即 可 
完成 变换 处 理 。 例 如 ， 我 们 把 数据 集中 gender 列 的 
男 替 换 为 1， 女 替换 为 0。 


下 面 我 们 通过 图 解 的 方式 ， 拆 解 map 的 操作 过 程 
(1 ) 使 用 字典 映射 的 map 原 理 


#@ 使 用 字典 进行 映射 
qata[ngenaern"] = data[nrgendec"] .map(ft7 男 ":]，" 女 " 


忆 
Pandas 臣 
数组 变换 函数 


}) 新 的 data[ 和 
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(2 ) 使 用 函数 映射 的 map 原 理 


#@ 使 用 浮 数 
aqef dgq9enadqer_ map (X) : 
0 


return genaqer 
# 注 意 这 里 传 入 的 是 函数 名 ， 不 带 括号 


aqata["genader"] = aqata["gender"] .map (genadaerlLmap) 


Pandas 
数组 变换 函数 
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如 上 面 例子 所 示 ， 使 用 map 时 ， 我 们 可 以 通过 字典 
或 者 函数 进行 映射 处 理 。 对 于 这 两 种 方式 ，map 都 
是 把 对 应 的 数据 逐个 当 作 参 数 传 入 到 字典 或 浮 数 
中 ， 进 行 映 射 得 到 结 


2.2 apply 方 法 


当 我 们 需要 完成 复杂 的 数据 映射 操作 处 理 时 ， 我 们 
会 使 用 到 Series 对 象 的 apply 方 法 ， 它 和 map 方 法 类 
似 ， 但 能 够 传 入 功能 更 为 复杂 的 函数 。 


我 们 通过 一 个 例子 来 理解 一 下 。 例 如 ， 我 们 要 对 年 
龄 age 列 进行 调整 (加 上 或 减 去 一 个 值 ) ， 这 个 加 
上 或 减 去 的 值 我 们 希望 通过 传 入 。 此 时 ， 多 了 1 个 参 
数 bjias， 用 map 方 法 是 操作 不 了 的 〈《 传 入 map 的 函 
数 只 能 接收 一 个 参数 ) ，apply 方 法 则 可 以 解决 这 个 
问题 。 


Qqef applLy _ age(xrbias) : 


CetUurn X+DbDias 


# 以 元 组 的 方式 传 入 额外 的 参数 
Qqata["ade"] = qata["adgde"] .appLy(applLly _ agerardgs= ( 
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可 以 看 到 age 列 都 咸 了 3， 这 是 个 非常 简单 的 例子 ， 
apply 在 复杂 场景 下 有 着 更 灵活 的 作用 。 

总 结 一 下 ， 对 于 Series 而 言 ,map 可 以 完成 大 部 分 
数据 的 统一 映射 处 理 ， 而 apply 方 法 适合 对 数据 做 复 
杂 灵 活 的 函数 映射 操作 。 


三 、DataFrame 数 据 处 理 


3.1 apply 方 法 


DataFrame 借 助 apply 方 法 ， 可 以 接收 各 种 各 样 的 函 
数 (Python 内 置 的 或 自 定 义 的 ) 对 数据 进行 处 理 ， 
非常 灵活 便捷 。 

掌握 DataFrame 的 apply 方 法 需要 先 了 解 一 下 axis 的 
概念 ， 在 DataFrame 对 象 的 大 多 数 方法 中 ， 都 会 有 
axis 这 个 参数 ， 它 控制 了 你 指定 的 操作 是 沿 着 0 轴 还 
是 1 轴 进 行 。axis=0 代 表 操 作对 列 columns 进 行 ， 
axis=1 代 表 操 作对 行 row 进 行 ， 如 下 图 所 示 。 


Pandas 


FA LIAN 
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我 们 来 通过 例子 理解 一 下 这 个 方法 的 使 用 。 例 如 ， 
人 > 别 进行 取 对 数 和 求 和 的 操 
作 。 这 时 使 用 apply 进 行 相 应 的 操作 ， 两 行 代 码 可 以 


很 轻松 地 解决 。 


(1T) 按 列 求 和 的 实现 过 程 
因为 是 对 列 进行 操作 ， 所 以 需要 指定 axis=0。 本 次 
实现 的 底层 ，apply 到 底 做 了 什么 呢 ? 我 们 来 通过 图 
解 的 方式 理解 一 

# 沿 着 0 轴 求 和 


轩 辣 二 司 几 册 二 全 末 有 二 全 9g 全 吕 品 民 aEElUnEEsDm， ax 


= 
eight 1 霹 台 


weigh: age 
B 日 398 
中 
283 


(2 ) 按 列 取 对 数 的 实现 过 程 

因为 是 对 列 进行 操作 ， 所 以 需要 指定 axis=0。 本 次 
实现 的 底层 ，apply 到 底 做 了 什么 呢 ? 我 们 来 通过 图 
解 的 方式 理解 一 


# 沿 着 0 轴 求 和 


Qqata[["heidght" "weidht" "ade"] 


[ 


本 全 辣 下 本 Sm 区 


# 沿 着 0 轴 取 对 数 
Qqata[["heidght" "weigdht" "ade"] 


-一 


琶 2UojoliGoloSIe 人 = 4 


当 沿 着 轴 0 〈 axis=0 ) 进行 操作 时 ， 会 将 各 列 
(columns) 默 认 以 Series 的 形式 作为 参数 ， 传 入 到 你 
指定 的 操作 函数 中 ， 操 作 后 合并 并 返回 相应 的 结 
果 。 


(3 ) 按 行 计算 BMI 指 数 


那 我 们 实际 应 用 过 程 中 有 没有 (axis=1 ) 的 情况 

呢 ? 例如 ， 我 们 要 根据 数据 集中 的 身高 和 体重 计算 
每 个 人 的 BMI 指 数 〈 体检 时 常用 的 指标 ， 衡 量 人 体 
肥胖 程度 和 是 否 健康 的 重要 标准 ) ， 计 算 公 式 是 : 
体重 指数 BMI= 体 重 / 身 高 的 平方 〈 国际 单位 kg/ ) 。 


这 个 操作 需要 对 每 个 样本 〈 行 ) 进行 计算 ， 我 们 使 


用 apply 并 指定 axis=1 来 完成 ， 代 码 和 图 解 如 下 : 


def BMI (series) : 
welidght = Series["welight"] 
height = series["height"]j/100 
BMI = weight/heightxr*2 
ie 本 攻 惟 下 


QaalBMI ”| aataaeplIBMNTI ax 三 二 ) 


heightweightsmokergender age color 
AS 搜索 | 微 信 26.576132 
e | 162 | 54 | False | e | 3e | yellow 
Pa nadas ShowMeAl 14.18916882 
研究 中 心 到 


数组 变换 函数 1 |182 


CC http: 


当 apply 设 置 了 axis=1 对 行进 行 操 作 时 ， 会 默认 将 每 
一 行 数 据 以 Series 的 形式 〈Series 的 索引 为 列 名 ) 
传 入 指定 函数 ， 返 回 相应 的 结果 。 


做 个 总 结 ，DataFrame 中 应 用 apply 方 法 : 


1. 当 axis=0 时 ， 对 每 列 columns 执 行 指 定 上 
数 ; 当 axis=1 时 ， 对 每 行 row 执 行 指 定 缉 
效 。 


2. 无 论 axis=0 还 是 axis=1， 其 传 入 指定 函数 


的 默认 形式 均 为 Series， 可 以 通过 设 


raw=True 传 入 numpy 数 组 。 
3. 对 每 个 Series 执 行 结果 后 ， 会 将 结 
在 一 起 返回 ( 知 想 有 返回 值 ， 定 义 
需要 return 相 应 的 值 ) 
4. 当然 ,DataFrame 的 apply 和 Series 的 
apply 一 样 ， 也 能 接收 更 复杂 的 函数 ， 如 


传 入 参 


法 详 见 官方 文档 。 


3.2 applymap 方 法 


applymap 是 


宋 
缉 


置 


训 

过 
米 
双 


改 昌 


公 
呈 


寺 


效 等 ， 实 现 原 理 是 一 样 的 ， 具 体 用 


另 一 个 DataFrame 中 可 能 会 用 到 的 方 


法 ， 它 会 对 DataFrame 中 的 每 个 单元 格 执行 指定 函 
效 的 操作 ， 如 下 例 所 示 : 


qt = Pd.DataFrame ( 


{ 


于 
本 
人 


36R 
TO 汪 
2 加 汪 
2 TO 遇 
2 更 


zandom . 
下 瑟 机 QOmR 
zanadom . 
zanadom . 


Canaqonm 。 


aeink5) 丈 
alias 用 
EU0 认 的 区 有 
Is GUIECS 克 


GTGinat5) 有 


三 
Pandas 使 用 numpy 生 成 数据 
数组 变换 函数 

1 


1 > 
np ,r 
np ,rr > 器 
np.randol (5) 生 
1-798695 | 6.169631 ， 9.995167 | 1.152319 | 9.98| | 
| 
-9.531755 | -9,659289 | 9.191792 | -1,991197 | -9.926723 
3 


我 们 希望 对 DataFrame 中 所 有 的 数 保留 两 位 小 数 显 
示 , applymap 可 以 帮助 我 们 很 快 完成 ， 代 码 和 图 解 
如 下 : 


间 Ooapelymae anEOa 是 |) 


加 


Pandas 保留 两 位 小 数 显示 
数组 变换 函数 
4 
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资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 


操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 理 表 可 以 在 以 下 地 
址 下 载 获 取 


。 Pandas 速 查 表 
。 NumPy 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 官 方 教程 
。 Pandas 中 文教 程 
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。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 
。 业务 认 知 与 数据 初探 
。 数据 清洗 与 预 处 理 

。 业务 分 析 与 效 据 挖掘 


。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
。Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 
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。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


Python 效 据 分 析 | Pandas 效 
据 分 组 与 操作 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123136343 
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当 我 们 提 到 python 数 据 分 析 的 时 候 ， 大 部 分 情况 下 
都 会 使 用 Pandas 进 行 操作 。pandas 整 个 系列 履 盖 
以 下 内 容 : 


图 解 Pandas 核 心 操 作 函 数 大 全 
图 解 Pandas 数 据 变换 高 级 函数 
Pandas 效 据 分 组 与 操作 


一 、Pandas 数 据 分 组 与 操作 


在 我 们 进行 业务 数据 分 析 时 ， 经 常 要 对 数据 根据 1 个 
或 多 个 字段 分 为 不 同 的 组 (group ) 进行 分 析 处 理 。 
如 电 商 领域 可 能 会 根据 地 理 位 置 分 组 ， 社 交 领 域 会 
根据 用 户 画像 (性别 、 年 龄 ) 进行 分 组 ， 再 进行 后 
续 的 分 析 处 理 。 


Pandas 中 可 以 借助 groupby 操 作对 Dataframe 分 组 
操作 ， 本 文 介绍 groupby 的 基本 原理 及 对 应 的 agg、 
transform 和 apply 方 法 与 操作 。 


我 们 先 模 拟 产 出 1 个 Dataframe : 


mocFgnmumpbyEsS 要 闻 


工科 本 加工 下 记 二 Oasiss PPO 
ComPany= [ AN mBnm HG ] 


Qata=pdq.DataFrame (1{ 
Gmaileonean |crE nn 全 开导 三 Opm . 工 3 艺 
“salarw nearnaoocomeeanain ssUn hg) 


人 


加 


| 一旦 宁 | 从 国情 册 | 


二 、Groupby 分 组 及 应 用 


2.1 分 组 


pandas 实 现 分 组 操作 的 很 简单 ， 只 需要 把 分 组 的 依 
据 ( 字 段 ) 放 入 groupby 中 ， 例 如 下 面 示例 代码 基于 


company 分 组 : 


goempE=oqakcasogoupbxeonmpEany yy) 


经 过 groupby 处 理 之 后 我 们 会 得 到 一 个 
DataFrameGroupBy 对 象 : 


Group 


# 输出 


<Pandqas .core .groupby .generic.DataFrameGroupPBy ob 


这 个 生成 的 DataFrameGroupBy 是 什么 ? data 经 过 
groupby 处 理 后 发 生 了 什么 ? 


上 面 返回 的 Groupby 处 理 结果 是 内 存 地 址 ， 并 不 利 
于 直观 地 理解 ， 我 们 可 以 把 group 转 换 成 list 的 形式 
来 看 一 看 内 部 数据 和 整个 过 程 : 


上 st(grcoup) 


fs) 
Pandas 
数组 分 组 


楼 索 | 微 信 ShowMeAl 研究 中 心 


转换 成 列表 的 形式 后 ， 可 以 看 到 ， 人 列表 由 三 个 元 组 
组 成 ， 每 个 元 组 中 : 


一 个 元 素 是 组 别 (这 里 是 按照 company 进 行 
0 所 以 最 后 分 为 了 A,B,C ) 
二 个 元 素 的 是 对 应 组 别 下 的 DataFrame 


轴 业 


总 结 一 下 ，groupby 将 原 有 的 DataFrame 按 照 指 定 
的 字段 (这 里 是 company ) ， 划 分 
DataFrame。groupby 之 后 可 以 进行 下 一 步 操作 ， 
注意 ， 在 groupby 之 后 的 一 系列 操作 is 
apply 等 ) ， 均 是 基于 子 DataFrame 的 操作 。 


下 面 我 们 一 起 看 看 groupby 之 后 的 常见 操作 。 


2.2 agg 聚合 操作 


聚合 统计 操作 是 groupby 后 最 常见 的 操作 ， 类 比 于 
SQL 中 我 们 会 对 数据 按照 group 做 聚合 ，pandas 中 
通过 agg 来 完成 。 聚 合 操作 可 以 用 来 求 和 、 均 值 、 
最 大 值 、 最 小 值 等 ， 下 表 为 Pandas 中 常见 的 聚合 操 
人 


加 pandas 中 常见 的 聚合 棵 作 马 
Pandas 人 
max 最 大 值 全 
数组 分 组 m 。 。 求 和 @ 
AN 车 mean 均 值 区 

medi 中 位 数 

td 标准 差 

方差 
count 计数 | 挫 索 | 微 售 ShowMeAl 研究 中 心 


例如 ， 计 算 不 同 公司 员工 的 平均 年 龄 和 平均 薪水 ， 
示例 代码 如 下 : 


加 a 世 a 昌 gp 人 compan 到 agoimeEeani) 


或 者 针对 不 同 字 段 做 不 同 的 计算 处 理 ， 例 如 ， 要 计 
算 不 同 公司 员工 的 平均 年 龄 、 薪 水 的 中 位 数 。 可 以 
利用 字典 进行 聚合 操作 : 


aeaaccoupecye ecneany ago salacye eolian'7 


我 们 对 agg 聚 合 过 程 进 行 图 解 ， 如 下 所 示 : 


2.3 transform 变 换 


transform 是 另外 一 个 pandas 分 组 后 会 使 用 到 的 方 
法 ， 我 们 举例 来 说 明 它 的 用 法 。 


上 述 agg 应 用 例子 中 ， 我 们 计算 了 不 同 公司 员工 的 

平均 薪水 ， 如 果 现 在 需要 新 增 一 列 avg_salary， 代 

表 员 工 所 在 的 公司 的 平均 薪水 (相同 公司 的 员工 具 
有 一 样 的 平均 新 水 ) ， 我 们 融 可 以 借助 transform 来 
完成 。 


要 完成 上 述 任务 ， 我 们 需要 先 求 得 不 同 公司 的 平均 
和 薪水， 再 按照 员工 和 公司 的 对 应 天 系 填 充 到 对 应 的 
位 置 ， 使 用 之 前 学 到 的 map 方 法 可 以 拆 解 实现 如 
下 : 


avg9_Salary_dqict = qata.g9roupby('company ') [ "salar 
Q@aealli ao 到 Sa 天 Yo 证 改 三 证 aiealecomeanyo il 攻 matktearg sal 
Qata 


而 transform 方 法 可 以 帮助 我 们 一 行 实现 全 过 程 : 


Qaealla ao 要 Sa 不 ao 吕 大 三 量 避 aiea 二 guo eeomeans 让 j) [Sa 


Qata 


人 (人 http:/wwwshowmeaitechy 
v 


一 


注意 图 中 大 方 框 ， 展 示 了 transform 和 agg 不 一 样 的 
计算 过 程 : 


。agg : 会 计算 得 到 A，B ，C 公 司 对 应 的 均值 并 
直接 返回 

。transform : 会 对 每 一 条 数据 求 得 相应 的 结果 ， 
同一 组 内 的 样本 会 有 相同 的 值 ， 组 内 求 完 均值 
后 会 按照 原 索 引 的 顺序 返回 结 


2.4 apply 方 法 


之 前 我 们 介绍 过 对 Dataframe 使 用 apply 进 行 灵 活 数 
据 变 换 操作 处 理 的 方法 ， 它 支持 传 入 自 定 义 函 数 ， 
实现 复杂 数据 操作 。apply 除 了 之 前 介绍 的 用 法 ， 也 
可 以 用 在 groupby 后 ， 我 们 一 起 来 学 习 一 下 。 


对 于 groupby 后 的 apply， 实 际 上 是 以 分 组 后 的 子 
DataFrame 作 为 参数 传 入 指定 函数 的 ， 基 本 操作 单 
位 是 DataFrame， 而 之 前 介 台 0 人 作 单 
位 是 Series。 我 们 通过 一 个 案例 来 理解 一 


加 入 我 们 需要 获取 各 个 公司 年 龄 最 大 的 员工 的 数 
据 ， 可 以 通过 以 下 代码 实现 


QeEdgskc 划 olaesieEs 蕊 aa 下 借 (区 总 
qf = X.Sort_ Values (by = "age'ryascendind=ITU 
下 有 下 从 三 


Oldest_staff = qata.g9groupby ('"company'yas_ inadqex= 了 下 


Oldqest_ staf 工 


我 们 对 上 面 的 过 程 图 解 帮助 理解 : 


让 
] 


本 例 中 的 apply 传 入 函数 的 参数 由 Series 变 成 这 里 的 
分 组 DataFrame。 相 比 于 agg 和 transform，apply 方 
法 拥有 更 大 的 灵活 性 ， 但 它 的 运行 效率 会 比 agg 和 
transform 慢 。 所 以 ，groupby 之 后 对 数 据 做 操作 ， 
优先 使 用 agg 和 transform， 其 次 再 考虑 使 用 apply 进 
行 操作 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运 行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 但 表 可 以 在 以 下 地 
址 下 载 获 取 


。 Pandas 速 查 表 


。 NumPy 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 官 方 教程 
。 Pandas 中 文教 程 


ShowMeAlI 相 天 文章 推 戎 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 

。 Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 


。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图解 效 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图 解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


Python 效 据 分 析 | 效 据 可 人 钢 
化 原则 与 方法 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123136888 


ShowMeAl 硬 核资 料 库 ， 用 知识 加 速 每 一 次 技术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:/www.showmeai.techyarticle- 
detail/149 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


一 、 效 据 可 钢化 介绍 


效 据 可 钢化 是 以 图 示 或 图 形 格式 表示 的 数据 ， 以 更 
直观 方式 理解 与 分 析 数 据 。 


我 们 经 常 听 到 一 个 说 法 “能 用 图 质 述 的 融 不 用 表 ， 能 
用 表 就 不 用 文子 ”,， 确实 我 们 在 认 知 上 ， 对 于 图 形 的 
敏感 度 远 比 文字 高 ， 获 取 的 信息 也 更 丰富 。 我 们 在 
互联 网 企业 中 更 是 随处 可 见 各 种 数据 看 板 ， 帮 助 我 
们 第 1 时 间 了 解数 据 与 业务 状况 。 


念 


数据 可 祝 化 


本 篇 内 容 ， 我 们 给 大 家 介绍 数据 分 析 中 天 于 可 视 化 
的 一 些 核心 知识 ， 包 括 : 


“各 关 图 形 及 特点 

“不 同 图 形 选择 方法 
一 米 几 形态 特 
二 、 各 类 图 形 及 特点 


接 下 来 给 大 家 介绍 下 数据 可 视 化 图 表 的 基本 类 型 和 
选用 原则 ， 选 用 正确 的 数据 可 视 化 的 图 表 。 


2.1 柱 形 图 (Column Chart ) 


柱 形 图 的 局 限 在 于 它 仅 适 用 于 中 小 规模 的 数据 集 ， 
当 数 据 较 多 时 就 不 易 分 辨 。 一 般 而 言 ， 不 要 超过 10 


| 。 


柱 形 图 (Column Chart) 


数据 可 祝 化 | as 
原则 与 方法 中国 wo : 


1 类 常用 图 形 下 mn 2 


比较 ， 也 可 以 用 
反映 时 间 趋势 CC ) 模 索 直 佑 大 8| 


人 httpWwwwshowmeaitech/ 


通 弟 来 说 ， 柱 形 图 的 横 轴 是 时 间 维 度 ， 用 户 习 惯性 
认为 存在 时 间 趋 势 。 如 果 遇 到 横 轴 不 是 时 间 维 度 的 
情 咒 ， 建 议 用 颜色 区 分 每 根 柱子 。 


2.2 条 形 图 (Bar Chart) 


条 形 图 用 来 反映 分 类 项 目 之 间 的 比较 ， 适 合 应 用 于 
跨 类 别 比 较 数 据 。 在 我 们 需要 比较 项 类 的 大 小 、 高 
低 时 适合 使 用 条 形 图 。 


多 


条 形 图 (Bar Chartb) 


数据 可 祝 化 


ES 

一 条 形 图 用 来 反映 

一 IE 分 类 项 目 之 间 的 
原则 与 方法 RE 
11 类 常用 图 形 Eee 过 用 干 中 类别 比 ” 
SS 较 数据 : 比较 项 类 本 
本 的 大 小 、 高 低 午 w 一 < 

一 f 


人 httpWwwwshowmeaitech/ 


2.3 折线 图 (Line Chart) 


折线 图 用 来 反映 随时 间 变 化 的 趋势 。 当 我 们 需要 描 
述 事物 随时 间 维 度 的 变化 时 常常 需要 使 用 该 图 形 。 


析 线 图 (Line Chart) 


数据 可 祝 化 ssrwasmegasee 
原则 与 方法 。 ji 
1 类 常用 图 形 AAA 四 
tm 站 
吧 缉 时 


人 httpwwwwshowmeaitech/ 


2.4 曲线 图 ( Curve ) 
假如 关注 的 是 数据 反映 的 整体 趋势 ， 曲 线 图 最 适 


人 
岂 o 


数据 可 祝 化 


曲线 图 (Curve) 


曲线 图 是 折线 图 的 一 种 ， 更 平滑 ， 更 能 表达 数据 
随时 间 等 变化 的 一 种 趋势 或 周期 性 。 


原则 与 方法 
11 类 常用 图 形 


仿 http:wwww.showmeaitechy 


2.5 饼 图 (Pie Chart ) 


四 


newpea 


数据 可 视 化 
原则 与 方法 
11 类 常用 图 形 


鲜 图 (Pie Chart) 


在 需要 描述 某 一 部 分 占 总 体 的 百分比 时 ， 适 合 使 
用 饼 图 。 


仿 http:Wwww.showmeaitechy 


2.6 直方 图 (Histogram ) 


直方 图 (Histogram) / 质量 分 布 图 


一 般 楼 轴 表 示 数 据 类 型 ， 纵 名 


因 呈 局 
数据 可 视 化 。 2RErotoeetan ANEHiee 
| 
原则 与 方法  : ] 
11 类 常用 图 形 ] 
:这 | 党 寺 SA16 殉 中心 | 


仿 http:Wwww.showmeaitechy 


2.7 和 线 图 (Box Plot ) 


| 
已 箱 线 图 (Box Plot) 到 


机 全 加 中 以 相 业 直 生出 直人 
的 基本 分 布 特征 : 是 否 对 称 ， 
数据 可 祝 化 箱 线 图 使 用 五 个 统计 量 (最 小 值 .第 一 四 分 位 数 、 分 向 程度 等 人 吗 
中 位 数 、 第 三 四 分 位 数 与 最 大 值 ) 来 描述 数据 。 


国 ， 


11 类 常用 图 形 -Haeso ] 国 = 国 


下 村 光 
[ 
-要 过 | 训 二 ShowWeAT 研 夫 中 心 | 


Mediterranepn 


原则 与 方法 厅 - 


人 人心 http:Wwww.showmeaitechy 


2.8 散 点 图 (Scatter Chart ) 


散 点 图 的 数据 为 三 维 数据 ， Ce 外 
坐标 点 ， 分 析 坐 标点 的 分 布 情况 ， 判 断 两 个 变量 之 
辐 的 天 联 或 分 布 趋势 


四 | 
二 散 点 图 (Scatter Chart) /X-Y 图 向 点 图 将 所 有 数据 以 点 的 型 


式 展 现在 直角 坐标 系 上 ， 晤 


数据 可 祝 化 二 量 的 示 灾 量 之 间 的 相互 影响 程度 。 


站 
中 握 8 eg 。4 点 的 位 置 由 变量 的 数值 决 
原则 与 方法 = ， 上 最 8 8_@ 。 属 兴 。 通 这 观 欠 攻 点 图 上 数 径 点 的 
11 类 常用 图 形 同人 天 分 布 情况 ， 我 们 可 以 椎 断 出 
| ” 。 。 变量 间 的 相关 性 ( 正 相关 、 负 


| 相关 、 不 相关 等 )- 
30 阅 (\ 神 壹 | 徽 信 ShowMeAl 研究 中 心 


26 
< of obese people==> 
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2.9 气泡 图 (Bubble chart ) 


气泡 图 是 散 点 图 的 一 种 衍生 ， 通 过 每 个 点 的 面积 
小 来 衡量 第 三 维度 ， 适 合 三 维 数据 的 对 比 ， 且 需要 
强调 第 三 维 ， 超 过 三 维 就 搞 不 定 。 


气泡 图 (Bubble chart) 


气泡 图 适合 三 维 数 据 的 对 比 ， 通 过 每 个 点 的 面积 
数据 可 祝 化 ES 0 
可 


EM 
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2.10 雷达 图 (Radar Chart ) 


雷达 图 适用 于 多 维 数据 (四 维 以 上 ) ， 且 每 个 维度 
必须 可 以 排序 。 数 据点 一 般 6 个 左右 ， 太 多 的 话 辨别 
起 来 有 因 难 。 


这 让 
雷达 图 (radar chart) 吧 
雷达 图 是 由 一 组 从 标 和 多 全 


数据 可 祝 化 同心 图 组 成 的 图 表 ， 可 以 在 
同一 坐标 系 内 展示 多 指标 的 & 

原则 与 方法 - 分 析 比 较 情况 。 的 
11 类 常用 图 形 


适用 干 多 维 数据 (四 维 以 上 ,，) 
的 综合 评价 , 且 每 个 维度 必 


可 以 排序 * 四 
人 人 刘 案 | 微 舍 ShowMeAl 研究 中 心 


2.11 瀑布 图 ( Waterfall ) 


瀑布 可 钢化 ， 对 于 显示 部 分 与 整体 的 天 系 (尤其 
负 向 关系 ) 时 非常 有 用 。 


人 瀑布 图 (waterfall) /桥接 图 当 国 的 首 导 开 人 水平 册 和 
淮 ， 中 间 是 浮动 列 ， 可 以 快 带 & 
数据 可 祝 化 瀑布 图 是 杜 形 图 的 特殊 类 型 ， 帮 助 识别 中 间 数据 ne Rs 

的 增 减少 是 如 何 影响 初始 值 及 形成 最 终 值 的 。 这 “ 


原则 与 方法 中 
7 四 是 = 
ea = 四 。 -_- 
二 量 且 “_ 一 
目 。 | () 演 是 二 三 ShowMeAl 研 究 p 星 | 


11 类 常用 图 形 
二 、 不 同 图 形 选 择 方 法 


3.1 按 应 用 场景 选择 


虽然 图 表 种 类 繁多 ， 但 是 基于 使 用 场景 大 致 可 以 分 
为 以 下 几 种 情况 。 


思 接应 用 场景 寺 择 攻 本 桥 
四 Emma 才 一 和 | 
原则 与 方法 1 和 


变 合 趋 壬 :| 位 舍 ShowMeAl 研 究 中 心 | 


3.2 按 效 据 天 系 选 择 


根据 可 视 化 专家 Andrew Abela 对 该 数据 关系 分 类 
方式 的 提炼 ， 他 提出 将 图 表 展 示 的 数据 关系 分 为 四 
类 : 比较 、 分 布 、 构 成 和 联系 。 下 面 对 这 四 种 关系 


以 及 应 用 举例 和 对 应 的 可 钢化 解决 方案 做 了 简要 的 
分 析 。 


大 部 分 情况 下 ， 我 们 根据 这 份 选择 指南 按 图 索 驻 就 
可 以 找到 ， 方 便 又 轻松 ， 在 实际 应 用 中 ， 也 存在 需 
要 展示 多 种 数据 天 系 的 情况 ， 那 么 对 应 的 图 表 类 型 
也 是 每 种 天 系 对 应 的 基本 图 形 的 综合 运用 。 例 如 多 
个 时 间 点 上 构成 的 比较 等 。 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运行 与 交互 


操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。 NumPy 速 查 表 
。 Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 
。 业务 认 知 与 数据 初探 
。 数据 清洗 与 预 处 理 

。 业务 分 析 与 效 据 挖掘 


。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
。Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。 Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 

。 基于 Pandas 的 数据 可 视 化 

。 Seaborn 工 具 与 数据 可 视 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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Python 效 据 分 析 | 基于 
Pandas 的 数据 可 人 钢化 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123137445 


ShowMeAI 硬 核资 料 库 ， 用 知识 加 速 每 一 次 技术 成 长 
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作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/150 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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大 家 在 前 面 的 教程 中 看 到 了 Pandas 进 行 数 据 分 析 的 
灵活 操作 ， 但 同时 作为 一 个 功能 强大 的 全 能 工具 
库 ， 它 也 能 非常 方便 地 文 持 数 据 可 视 化， 而 且 大 部 


分 基础 图 像 绘制 只 要 一 行 代码 就 能 实现 ， 大 大 加 速 
了 我 们 的 分 析 效 率 ， 本 文 我 们 介绍 pandas 可 视 化 及 
绘制 各 种 图 形 的 方法 。 


一 、 基 本 绘图 皮 效 plot 


Series 和 DataFrame 上 的 可 视 化 功能 ， 只 是 围绕 
matplotlib 库 plot () 方 法 的 简单 包装 。 


mo Danaas as CEa 

momoy as 是 立 记 

aqf = Pd.DataFrame (np.random.randqdn(10v 4)，inaex=pPd 
Periodqs=10)， columns=1List("ABCD'"') ) 

ioEeneR(O) 


import pandas as pd 
import numpy as np 
(np,random 


/ 下 
AN 1 
六 


可 人 要 索 | 微 信 ShowMeAl 研究 中 心 


如 果 勾 引 由 日 期 组 成 ， 如 上 图 所 示 ， 会 自动 进行 日 
期 填充 。 


除 默认 线 图 外 ， 还 可 以 绘制 多 种 样式 ， 可 以 使 用 
DataFrame.plot.[ 图 类 型 参数 ] 方法 进行 不 同 图 形 的 


选择 。 


包 TZ 了 区 
二 条 形 良 


LImPoeecanaasnas ea 
aoiensieg 有 opiioAAEEI ie 
af = Pd.DataFrame (np.random.randq(10v， 4)，columns=[ 


Qioliosloan (人 


import pandas as pd 

import numpy as_ np 

d pd. (np.random . 
['e 下 


df.plot. () 


产生 堆 二 的 柱状 图 ， 可 以 设置 S 七 acCKedq=IrUe 


IDCOE EDanaoasss pa 
df = pq.DataFrame (npPp.zandom.zrand(10, 4)，colLlumns= 


af.Plot.bar(stackedq=ITruUe) 


运行 结果 如 下 : 


import pandas as pd 
FE RU (np.random. ， 
吾 lumns= ['e BE 
数据 可 祝 化 人 
Pandasa 攻 
条 形 图 | 由 | 
N 
本 加 5 证 二 站 -showwMeAl 研究 中 心 
人 http:wwww.showmeaitechy 


要 获取 水 平 条 形 图 ， 可 以 使 用 barh 方 法 : 


工科 OLEDPanaQasass PPO 


人 几 Sioneieg 有 oilow 攻 = 起 量 io 


daqf = Pd.DataFrame (np.random.rand(10,， 4)，columns= 


af.Plot.barnh(stackedq=ITFuUe) 


运行 结果 如 下 : 


import pandas as pd 
import numpy as np 
df pd (np,random, 


2 
df pl10EL 《Sta ) 


Showweai 研究 中 心 ] 


直方 图 


可 以 使 用 plot .hist () 方法 绘制 直方 图 。 我 们 可 以 


指定 数量 。 


import Pandas as Pd 


全 Sienoie 和 oubilowEEiS 硬 oo 


QQ Eapaagranmnel anAcanacnecananOob ) +1， 
国 芋 让 业 瑟 (二 册 ) 


运行 结果 如 下 : 


import pandas as pd 

import numpy as np 

FEED (fa :np.random， 
:np .random. 
:np .random， 
:np .random. 


df,plot， 〔 


[ShowMeAl 研究 中 心 
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可 以 使 用 以 下 代码 为 每 列 绘制 不 同 的 直方 图 : 


InoOcEE Danaoas aspa 

aolopa cpio Emo 

QQ PPOesDaEapramelnanc nencangcneranonll100b ) +1， 
国有 本 国人 二 二 从 本 assie tens 三 为 0) 


运行 结果 如 下 : 


CO import pandas as pd 
< import numpy as np 
GEF= DGdE ({ np.random . 
数据 可 视 化 :np,random. 
;np.random . 
Panda: :np,random. 
/ 人 
为 每 列 绘制 
不 同 的 直方 图 


四 、 箱 形 图 


可 以 通过 调用 series.box.plot () 

和 DataFrame.box.plot 1() 

或 DataFrame.boxplot () 来 绘制 Boxplot ， 以 可 视 
化 每 个 列 中 值 的 分 布 。 


例如 ， 这 是 一 个 箱 线 图 ， 代 表 对 [0,1 ) 上 的 一 个 随 
机 变量 的 10 个 观测 值 的 五 个 试验 。 


ieienogas -iis = 有 = = 看 。s| 
人 放 Sieneie 和 ioibiow ie 
加 有 性 三 重启 Q 天 SaReamesilnbR2anacmarcanai OA SRECP1unmns: 


Qiocxs (从 


运行 结果 如 下 : 


import pandas as pd 

import numpy as np 

df = pd， (np.random， 
olumns=["A'，“B 


df.plot， () 


(人 过 全 Snowweni 研究 中 心 


五 、 面 积 度 


可 以 使 用 series .plot .area () 
或 DataFrame.plot.area() 方法 创建 面积 图 。 


Import Pandas as Pd 

more 三 mm SS 本 记 划 

df = Pda.DataFrame (npPp.zandaom.ranaq(10， 
NGheE0s SEA 全 


运行 结果 如 下 : 


import pandas as pd 

import numpy as np 

df = pd， (np.random . 
人 

df.plot. () 


搜索 | 微 信 [ShowMeAi 研究 中 心 
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有 


COTLurmns: 


7 、 艇 点 图 


创建 散 点 图 可 以 使 用 DataFrame.plot.scatter () 
方法 。 


iso is -iiisi = = = 是 | 
aolcneeaioipiiow EDiolo 
df = Pda.DataFrame (nnP.zandom.ranad(50，4)，coblumns: 


QoSseaeeenmi(x ah 三 io 


运行 结果 如 下 : 


as pd 
数据 可 祝 化 1 Fra 2 
Pandag 人 


攻 忆 Showweni 研究 中 心 


THf TTZ 
七 、 饼 形 图 
创建 饼 图 可 以 使 用 pataFrame.plot.pie() 方法 。 


iso = is = = = s| 
aojcne einoipiio Emo 


qf = Pd.DataFrame(3 *x np.random.randq(4)，inadqex=[ 


qf.PlLlot.pPie(subplLlots=ITrue) 


运行 结果 如 下 : 


资料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 en 

宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交 
操作 学 习 哦 ! 


本 系列 教程 涉及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 


。 Pandas 速 查 表 
。NumPy 速 查 表 
。Matplotlib 速 查 表 
。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 


ShowMeAlI 相 天 文章 推荐 


。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
。Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 
。Pandas 数 据 分 组 与 操作 

。 数据 可 视 化 原则 与 方法 


。 基 于 Pandas 的 数据 可 视 化 
。 Seaborn 工 具 与 数据 可 人 秽 化 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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article/details/123137786 
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作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/33 
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detail/151 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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Python 中 最 常用 于 数据 可 视 化 的 工具 库 包括 
Matplotlib 和 Seaborn。 其 中 ,Matplotlib 属 于 
Python 数据 可 视 化 的 基础 库 ， 有 具备 很 高 的 灵活 度 ， 


但 应 用 过 于 复杂 一 一 官方 文 肖 有 3000 多 页 ， 包 含 上 
干 个 方法 以 及 数 万 个 参数 。 


对 于 快捷 地 进行 数据 分 析 可 视 化 而 言 ，Seaborn 是 
一 个 更 简单 易 用 的 选择 。Seaborn 基于 Matplotlib 
核心 库 进 行 了 更 高 阶 的 API 封装 ， 可 以 轻松 地 画 出 
更 漂亮 的 图 形 。Seaborn 的 漂亮 主要 体现 在 配色 更 
加 舒服 、 以 及 图 形 元 素 的 样式 更 加 细腻 。 下 面 是 
Seaborn 官方 给 出 的 参考 图 。 


数据 可 祝 化 
工具 库 


Seaborn 假 : 
CS httpWwwwshowmeaitech 


里 


3 
末 
P 


Ca 基干 Matplotlib 做 了 高 阶 封装 
铺 seaborn 配色 舒服 .元 素 更 细 肘 ， 绘 图 更 加 轻松 到 


一 、Seaborn 工 具 库 优点 


。 内 置 效 个 经 过 优化 的 样式 效 果 。 

。 增加 调 色 板 工具 ， 可 以 很 方便 地 为 数据 搭配 颜 
色 ， 

。 单 变量 和 双 变 量 分 布 绘图 更 为 简单 ， 可 用 于 对 
效 据 子 集 相互 比较 。 

。 对 独立 变量 和 相关 变量 进行 回归 拟 合 和 可 视 化 


更 加 便捷 。 
。 对 数据 答 阵 进行 可 视 化 ， 并 使 用 聚 类 算法 进行 


分 析 。 
。 基 于 时 间 序 列 的 绘制 和 统计 功能 ， 更 加 灵活 的 
不 确定 度 估计 。 


。 基 于 网 格 绘制 出 更 加 复杂 的 图 像 集 合 。 


二 、 快 速 优 化 Matplotlib 绘 制 
的 图 形 


Matplotlib 绘图 的 默认 图 像样 式 算 不 上 美观 ， 可 以 使 
用 Seaborn 完成 快速 优化 。 


使 用 Matplotlib 绘制 一 张 简单 的 图 像 。 


主人 


等 硼 本 臣下 下 提 让 王后 二 于 半 了 而 全 


二 
Da 
Me 汪汪 人 2 全 直人 


EUIOENGIO NOED SI 
TO 同人 


import matp1lot1lib.pyplot as 
matplot1lib inline 


数据 可 祝 化 
Seaborn 


快速 优化 图 形 


使 用 Seaborn 完成 图 像 快速 优化 。 
方法 非常 简单 ， 只 需要 将 Seaborn 提供 的 样式 声明 
代码 sns.set() 放置 在 绘图 前 即 可 。 


Import seaborn as Sns 


SnSs.set () 


# 声明 使 用 seaborn 样式 


加 直 eloanil yoans) 


IE IE 区 且 本 天 和 IE 河和) 


,名 import seaborn as sns 
sns.seft() # 声 明 使 用 Seaborn 样式 
数据 可 祝 化 有 
。 (x，y_bar) 

Seaborn .plot(x，y line，，-o'， 

3 本 浅 灰 色 网 格 背景 
快速 优化 图 形 向 人 二 

坐标 轴 的 字体 大 小 
Chttpywwwshowmeaitech/ 


可 以 发 现 ， 相 比 于 Matplotlib 默认 的 纯 白色 背景 


上 月 吓 / 
Seaborn 默认 的 浅 灰 色 网 格 背 景 看 起 来 的 确 要 细 腊 


舒适 一 些 。 而 柱状 图 的 色调 、 坐 标 轴 的 字体 大 小 也 


都 有 一 些 变 化 。 


sns.set() 的 默认 参数 为 : 


Sns.set (Context='notebook '， style='dqarkgrida' 


岛 ntext 榨 制 默 认 的 画幅 大 小 
控制 只 号 
数据 可 祝 化 有 
\ font_scate 设置 字体 大 小 昌 
Seaborn ， ”人 \ 不 使 用 调 色 板 而 采用 先前 的 !r 等 色彩 缩写 
快速 优化 图 形 
eep，muted，bright，pasteL，dark，cotorbLind 
CSP httpy h 


。 context=…“ 参数 控制 着 默认 的 画幅 大 小 ， 分 别 
有 {fpaper, notebook, talk, poster} 四 个 值 。 其 
中 ，poster > talk > notebook > paper。 


。 Style=…“ 参数 控制 默认 样式 ， 分 别 有 {darkgrid， 


whitegrid, dark, white, ticks}， 你 可 以 自行 更 改 


查看 它们 之 间 的 不 同 。 


。palette= “参数 为 预 设 的 调 色 板 。 分 别 有 
ev muted, bright, pastel, dark, colorblind} 
， 你 可 以 自行 更 改 查 看 它们 之 间 的 不 同 。 


。 剩 下 的 font=…“ 用 于 设置 字体 ， font_scale= 设 


7 Pa 


置 字体 大 小 ，color codes= 不 使 用 调 色 板 而 采 
用 先前 的 等 色彩 缩写 。 


三 、Seaborn 核 心 绘图 轴 数 与 
方法 


Seaborn 一 共 拥 有 50 多 个 API 类 ， 相 比 于 
Matplotlib 数 千 个 的 规模 ， 可 以 说 是 非常 精简 了 。 根 
据 图 形 的 适应 场景 ，Seaborn 的 绘图 方法 大 致 分 类 
6 类 ， 这 6 大 类 下 面 又 包含 不 同 数量 的 绘图 函数 : 


关联 图 一 一 relplot 

类 别 图 一 一 catplot 

分 布 图 一 一 distplot、kdeplot、jointplot、 
pairplot 

回归 图 一 一 regplot、Implot 

和 窍 阵 图 一 一 heatmap、clustermap 
组 合 图 


接 下 来 ， 我 们 通过 “ 音 尾 花 示 例 数据 集 。 进行 演 
示 ， 使 用 Seaborn 绘制 适应 不 同 场景 的 图 形 。 首 先 
导入 数据 集 : 


Iris = sns.LIoaaq_qataset ("1ris") 


ssaaig) 


在 绘图 之 前 ， 先 熟悉 一 下 iris 音 尾 花 数 据 集 。 
数据 集 总 共 150 行 ， 由 5 列 组 成 。 分 别 代 表 : 划 
长 度 、 革 片 宽 度 、 花 瓣 长 度 、 花 辩 宽 度 、 花 的 类 
别 。 其中， 前 四 列 均 为 数值 型 数据 ， 最 后 一 列 花 的 
分 类 为 三 种 ， 分 别 是 : Iris Setosa、 Iris 


Versicolour、Ilris Virginica。 
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3.1 关联 图 


当 我 们 需要 对 数据 进行 天 联 性 分 析 时 ， 可 能 会 用 到 
Seaborn 提供 的 以 下 几 个 API。 


API 层 级 关联 性 分 析 介绍 
Figure-level relplot 绘制 天 系 图 
Axes-level scatterplot 多 维度 分 析 散 点 


冬 | 


lineplot 多 维度 分 析 线 形 


relplot 是 relational plots 的 缩写 ， 用 于 呈现 数据 之 
后 的 关系。relplot 主要 有 散 点 图 和 线形 图 2 种 样式 ， 
适用 于 不 同类 型 的 数据 。 

(1 ) 散 点 图 

指定 xxx 和 yyy 的 特征 ， 默 认可 以 绘制 出 散 点 
图 。 


Sns.relplot (X="sepal_ length"，y="sepal_ width"，d 


sns.relplot(x="sepal_length"，y="Ssepal_width"， 下 


ta=iris) 


但 是 ， 上 图 并 不 能 看 出 数据 类 别 之 间 的 联系 。 如 果 
我 们 加 入 类 别 特 征 对 数据 进行 着 色 ， 就 更 加 直观 
本 


Sns.relplot (X="sepal_ length"，y="sepal_width"，hi 


加 入 类 别 特 征 。 本 
对 数据 进行 : 加] : 涉 


Seaborn 的 函数 都 有 大 量 实用 的 参数 。 例 如 我 们 指 
定 style 参数 可 以 赋予 不 同类 别 的 散 点 不 同 的 形 


状 。 更 多 的 参数 ， 和 希望 大 家 通过 阅读 官方 文档 进行 
了 解 。 


Sns.relplot (xX="sepal_ length"，yYy="sepal_ width"n， 


全 
数据 可 祝 化 
Seaboroa 
凡 二 抽 
5 图 不 同类 别 | 的 散 点 村 3 
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(2 ) 线形 图 


relplot 方法 还 支持 线形 图 ， 此 时 只 需 
kind= 中 ine” 参数 即 可 。 图 中 阴影 部 N 


影 自动 给 出 的 
95%% 置信 区 间 。 


了 


Sns.relPlLot (x="sepal_ length"，yYy="pPetal_ 1l1ength"， 


95% 的 置信 区 间 
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(3 ) API 层级 : Axes-level 和 Figure-level 


Seaborn 中 有 API 层级 的 概念 。Seaborn 中 的 API 
分 为 Axes-level 和 Figure-level 两 种 : Axes-level 
的 函数 可 以 实现 与 Matplotlib 更 灵活 和 紧密 的 结 
合 ， 而 Figure-level 则 更 像 是 上“ 懒 人 函数 ，， 适 合 
于 快速 应 用 。 


你 会 发 现 ， 上 面 我 们 一 个 提 到 了 3 个 API， 分 别 
是 : relplot , scatterplot 和 lineplot。scatterplot 和 
lineplot 就 是 Axes-level 接口 ，relplot 则 是 Figure- 
level 接口 ， 也 可 以 被 看 作 是 scatterplot 和 lineplot 
的 结合 版 本 。 


例如 ， 上 方 relplot 绘制 的 图 也 可 以 使 用 lineplot 上 子 
数 绘制 ， 只 要 取消 relplot 中 的 kind 参数 即 可 。 


| 


Sns.1Lineplot (x="Ssepal_ length"，yYy="petal_ length"v 
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3.2 关 别 图 


与 关联 图 相似 ， 类 别 图 的 Figure-level 接口 是 
catplot ， 其 为 categorical plots 的 缩写 。 而 catplot 
实际 上 是 如 下 Axes-level 绘图 API 的 集合 : 


API 层 级 吸 数 介绍 

Figure-level catplot 

Axes-level stripplot() 分 类 散 点 图 
(kind="strip”) 
Swarmplot() 
(kind="Sswarm 
5oxplot() 分 类 分 布 
(kind= "box”) 
boxenplot() 


(kind= "boxem ) 
violinplot() 


(kind='"violin”) 

pointplot() 分 类 估计 图 
(kind= ”point ) 

barplot() 

(kind= "bar ) 

countplot() 

(kind= ”count ) 


(1) 散 点 图 strip / swarm 


下 面 ， 我 们 看 一 下 catplot 绘图 效果 。 该 方法 默认 是 


绘制 KiIndq=" 六 七 放 工 伺 散 点 图 。 


Sns.catpPlot (x="sepal_ length"，y="species"，， qdqata= 
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kindq="swarmn 可 以 让 散 点 按照 beeswarm 的 方式 
防止 重 亚 ， 可 以 更 好 地 观测 数据 分 布 。 


Sns.catpPplot (x="sepal_ length"，y="species"，， Kind= 


寿 

34 天 二 加 名 

呈 

确 

| 本 | 让 散 点 按照 beeswarm 和 oa 
类 别 了 的 方式 ， 防 止 重要 
Swarm | 
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同 理 ，hue= 参数 可 以 给 图 像 


参数 就 可 以 让 数据 点 有 更 好 的 区 分 。 


(2 ) 箱 线 图 box 


接 下 来 ， 我 们 依次 尝试 其 他 几 种 图 形 的 绘制 效果 。 


绘制 箱 线 图 : 


Sns.catpPlot (x="sepal_ length"，yYy="species"， 


入 另 一 个 维度 ， 由 于 
iris 数据 集 只 有 一 个 类 别 列 ， 我 们 这 里 就 不 再 添加 
hue= 参数 了 。 如 果 一 个 数据 集 有 多 个 类 别 ，hue= 
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(3 ) 增强 箱 线 图 boxen 


KInd= 


Sns.catpPlot (x="Sspecies"，y="sepal_ length"，Kind= 


数据 可 祝 化 


本 增强 箱 线 图 


boxen 


(4 ) 小 提 葬 图 violin 


Sns.catpPlot (x="sepal_ length"，y="species"，， Kind= 


sepal_length ”， species"，N\ 
violin"， iris) 


小 提琴 图 


vioLin 
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(5 ) 点 线 图 point 


Sns.catpPlot (x="sepal_ length"，y="species"， Kind= 


sns,catplot( 
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(6 ) 条 形 图 bar 


Sns.catpPlot (x="sepal_ length"，y="species"， Kind= 
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(7 ) 计数 条 形 图 count 


Sns.catpPlot (Xx="SsSpecies"，， Kindq="count"，，dqata=1iIris 


半数 条 形 图 
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3.3 分 布 图 
分 布 图 主要 是 用 于 可 视 化 变量 的 分 布 情况 ， 一 般 分 


为 单 变量 分 布 和 多 变量 分 布 (多 指 二 元 变量 ) 。 
Seaborn 提供 的 分 布 图 绘制 方法 一 般 有 这 几 个 : 
distplot、kdeplot、jointplot、pairplot。 接 下 来 ， 我 
们 依次 来 看 一 下 这 些 绘 图 方法 的 使 用 。 


API 层 级 喇 数 介绍 
Axes-level distplot 绘制 直方 图 并 拟 
合 核 密度 估计 图 
Axes-level kdeplot 专门 用 于 绘制 核 
密度 估计 图 
Axes-level jointplot 支持 kind= 参数 
指定 绘制 出 不 同 
样式 的 分 布 图 
Axes-level pairplot 一 次 性 将 数据 集 
中 的 特征 变量 两 
两 对 比 绘 


(1 ) 单 变量 分 布 图 distplot 


查看 里 变量 分 布 的 方法 是 distplot。 默 
方法 将 绘制 直方 图 并 拟 合 核 密度 估计 


Seaborn 快速 
认 情 况 下 ， 该 
到 。 
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单 变 量 介 布 of 六 全 - 国 
分 布 图 并 的 合 核 密度 估计 图 加 - 籽 到 


本 ShowMeAl 


distplot 提供 了 参数 来 调整 直方 图 和 核 密度 估计 图 。 
人 例如， 设置 kde=False 则 可 以 只 绘制 直方 图 ， 或 者 
hist=False 只 绘制 核 密度 估计 图 。 


(2 ) 核 密度 估计 图 kdeplot 


当然 ，kdeplot 可 以 专门 用 于 绘制 核 密度 估计 图 ， 其 
效果 和 distplot(hist=False) 一 致 ， 但 kdeplot 拥有 
更 多 的 自 定 义 设置 。 


SSsRWKEQeple 二 他 王 二 SSseeaenmgtenei 中 
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和 二 入 证 国 )。。 专 门 绘制 核 客 度 估计 图 


kdepLot 
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(3 ) 二 元 变量 分 布 图 jointplot 


jointplot 主要 是 用 于 绘制 二 元 变量 分 布 图 。 例 如 ， 


我 们 探寻 sepal_length 和 sepal_width 二 元 特征 变 
量 之 间 的 天 系 。 


Sns.JjointpPplot (x="sepal_ length"，yYy="sepal_wiaqth" 
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jointplot 并 不 是 一 个 Figure-level 接口 ， 但 其 支持 
kind= 参数 指定 绘制 出 不 同样 式 的 分 布 图 。 


十 


例如 ， 绘 制 出 核 密 度 估计 对 比 图 kde 


Sns.]jointpPlot (x="sepal_ length"，yYy="sepal_ widthn 
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绘制 六 边 形 计 数 图 hex 


Sns.]jointpPplot (x="sepal_ length"，yYy="sepal_ width"， 
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绘制 回归 拟 合 图 reg 


Sns.]jointpPplot (x="sepal_ length"，yYy="sepal_ width"n， 
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(4 ) 变量 两 两 对 比 图 pairplot 

最 后 要 介绍 的 pairplot 更 加 强大 ， 其 支持 一 次 性 将 
数据 集中 的 特征 变量 两 两 对 比 绘图 。 默 认 情况 下 ， 
对 角 线 上 是 单 变 量 分 布 图 ， 而 其 他 则 是 二 元 变量 分 


布 图 。 


Smsweanucelolaeis) 
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对 角 线 上 是 单 变量 分 布 图 目 


变量 两 两 对 比 图 将 数据 集中 的 变量 
分 布 图 | 加 两 两 绘制 对 比 图 
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此 时 ， 我 们 引入 第 三 维度 hue="species" 会 更 加 直 
观 。 


Sns.Ppairplot (Iris，hue="species") 


3.4 回归 图 


接 下 来 ， 我 们 继续 介绍 回归 图 ， 回 归 图 的 绘制 薄 数 
主要 有 : Implot 和 regplot。 


API 层 级 吸 数 介绍 
Axes-level regplot 自动 完成 线性 回 
归 拟 合 
Axes-level Implot 文 持 引 入 第 三 维 
度 进 行 对 比 


(1) regplot 


regplot 绘制 回归 图 时 ， 只 需要 指定 自 变 量 和 因 变 量 
即 可 ，regplot 会 自动 完成 线性 回归 拟 合 。 


Sns.regplot (X="Ssepal_ length"，y="sepal_ width"，，d 


自动 完成 线性 拟 合 


(2 ) Implot 


Implot 同样 是 用 于 绘制 回归 图 ， 但 Implot 支持 引入 
第 三 维度 进行 对 比 ， 例 如 我 们 设 


置 hue="speciesn"o。 


Sns.lLmplot (x="sepal_ length"，y="sepal_ width"n， 


引入 第 三 维度 
进行 对 比 
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3.5 息 阵 图 


算 阵 图 中 最 音 用 的 就 只 有 2 个 ， 分 别 是 : heatmap 
和 clustermap。 


API 层 级 浮 数 介绍 
Axes-level heatmap 绘制 热力 
Axes-level clustermap 层次 聚 类 结构 图 


(1 ) 热力 图 heatmap 


意 如 其 名 ，heatmap 主要 用 于 绘制 热力 图 。 热 力图 
在 某 些 场景 下 非常 实用 ， 例 如 绘制 出 变量 相关 性 系 
效 热力 图 。 


moome rmumiX 量 SS 本 间 


Snsnhnheanmaclneeeanacnmeeanaouue Lu) 


import numpy as np 


tmap(np,random.rand(16， 


(2 ) 层次 聚 类 结构 图 clustermap 


除 此 之 外 ，clustermap 支持 绘制 层次 聚 类 结构 图 。 
如 下 所 示 ， 我 们 和 去 挥 原 数据 集中 最 后 一 个 目标 
列 ， 传 入 特征 数据 即 可 。 当 然 ， 你 需要 对 层次 聚 类 
有 所 了 解 ， 否 则 很 难看 明白 图 像 多 表述 的 含义 。 


LELS Dop( specaes 
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四 、 梓 陈 控制 与 色彩 目 定 义 


浏览 官方 文档 ， 会 发 现 Seaborn 中 还 存在 大 量 已 大 


些 字母 开始 的 类 ， 例 如 JointGrid ，PairGrid 等 。 实 
际 上 这 些 类 只 是 其 对 应 小 写字 母 的 函数 jointplot ， 
pairplot 的 进一步 封装 。 当 然 ， 二 者 可 能 稍 有 不 同 ， 
但 并 没有 本 质 的 区 别 。 


除 此 之 外 ，Seaborn 官方 文档 中 还 有 天 于 样式 控 
制 和 色彩 自 定 义 等 一 些 辅助 组 件 的 介绍 。 对 于 这 
些 API 的 应 用 没有 太 大 的 难点 ， 重 点 需要 勤 于 练 
习 。 


欣 料 与 代码 下 载 


本 教程 系列 的 代码 可 以 在 ShowMeAl 对 应 的 github 
中 下 载 ， 可 本 地 python 环 境 运行 。 能 访问 Google 的 
宝宝 也 可 以 直接 借助 google colab 一 键 运 行 与 交互 
操作 学 习 哦 ! 


本 系列 教程 水 及 的 速 查 表 可 以 在 以 下 地 
址 下 载 获 取 : 
。 Pandas 速 查 表 


。 NumPy 速 查 表 
。 Matplotlib 速 查 表 


。 Seaborn 速 查 表 


拓展 参考 资料 


。 Pandas 可 视 化 教程 
。 Seaborn 官 方 教程 
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。 数据 分 析 介 绍 

。 数据 分 析 思 维 

。 数据 分 析 的 数学 基础 

。 业务 认 知 与 数据 初探 

。 数据 清洗 与 预 处 理 

。 业 务 分 析 与 数据 挖掘 

。 数据 分 析 工 具 地 图 

。 统计 与 数据 科学 计算 工具 库 Numpy 介 绍 
。 Numpy 与 1 维 数 组 操作 
。Numpy 与 2 维 数 组 操作 
。Numpy 与 高 维 数组 操作 

。 数据 分 析 工 具 库 Pandas 介 绍 

。 图解 Pandas 核 心 操 作 函 数 大 全 
。 图解 Pandas 数 据 变换 高 级 函数 


。Pandas 数 据 分 组 与 操作 
。 数据 可 视 化 原则 与 方法 
。 基于 Pandas 的 数据 可 视 化 
。 Seaborn 工 具 与 数据 可 视 化 
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。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
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